灾难恢复

灾难恢复

Danger

本章节是为专家准备的，尽可能地恢复损坏的文件系统。这些操作有可能改善你的处境，也可能更糟糕。如果你不太确定，最好别下手。

导出日志

尝试危险的操作前，先备份个日志副本，像这样：

cephfs-journal-tool journal export backup.bin

需要注意的是，此命令在日志损坏严重时也许会失效，在这种情况下，应该进行 RADOS 级的复制（ http://tracker.ceph.com/issues/9902 ）。

从日志恢复 dentry

如果日志损坏、或因其它原因导致 MDS 不能重放它，可以这样尝试恢复文件元数据：

cephfs-journal-tool event recover_dentries summary

此命令默认会操作 rank 0 的 MDS ，用 –rank=<n> 指定其它 rank 。

在条件满足的情况下，此命令会把日志中可恢复的 inode/dentry 写入后端存储，比如这些 inode/dentry 的版本号高于后端存储中的版本。如果日志中的某一部分丢失或损坏，就会被跳过。

注意，除了写出 dentry 和 inode 之外，此命令还会更新各 MDS rank “内”的 InoTables ，以把写入的 inode 标识为正在使用。在简单的案例中，此操作即可使后端存储回到完全正确的状态。

Warning

此操作不能保证后端存储的状态达到自我一致，而且在此之后有必要执行 MDS 在线洗刷。此命令不会更改日志内容，所以把能恢复的给恢复之后，应该分别裁截日志。

日志裁截

如果日志损坏或因故 MDS 不能重放它，你可以这样裁截它：

cephfs-journal-tool journal reset

Warning

重置日志会导致元数据丢失，除非你已经用其它方法（如 recover_dentries ）提取过了。此操作很可能会在数据存储池中留下一些孤儿对象，并导致已写过的索引节点被重分配，以致权限规则被破坏。

擦除 MDS 表

重置日志后，可能 MDS 表（ InoTable 、 SessionMap 、 SnapServer ）的内容就不再一致了。

要重置 SessionMap （擦掉所有会话），用此命令：

cephfs-table-tool all reset session

此命令会在所有 MDS rank “内”的表中执行。如果只想在指定 rank 中执行，把 all 换成对应的 MDS rank 。

会话表是最有可能需要重置的表，但是如果你知道你还需要重置其它表，那就把 session 换成 snap 或者 inode 。

MDS 图重置

一旦文件系统底层的 RADOS 状态（即元数据存储池的内容）恢复到一定程度，也许有必要更新 MDS 图以反映元数据存储池的内容。可以用下面的命令把 MDS 图重置到单个 MDS ：

ceph fs reset <fs name> --yes-i-really-mean-it

运行此命令之后， MDS rank 保存在 RADOS 上的任何不为 0 的状态都会被忽略：因此这有可能导致数据丢失。

也许有人想知道 ‘fs reset’ 和 ‘fs remove; fs new’ 的不同。主要区别在于，执行删除、新建操作会使 rank 0 处于 creating 状态，那样会覆盖所有根索引节点、并使所有文件变成孤儿；相反， reset 命令会使 rank 0 处于 active 状态，这样下一个要认领此 rank 的 MDS 守护进程会继续、并使用已存在于 RADOS 中的数据。

元数据对象丢失的恢复

取决于丢失或被篡改的是哪种对象，你得运行几个命令生成这些对象的默认版本。

# 会话表
cephfs-table-tool 0 reset session
# SnapServer 快照服务器
cephfs-table-tool 0 reset snap
# InoTable 索引节点表
cephfs-table-tool 0 reset inode
# Journal 日志
cephfs-journal-tool --rank=0 journal reset
# 根索引节点（ / 和所有 MDS 目录）
cephfs-data-scan init

最后，根据数据存储池中的内容重新生成丢失文件和目录的元数据对象。这要分两步完成，首先，扫描所有对象以计算索引节点的尺寸和 mtime 元数据；其次，从每个文件的第一个对象扫描出元数据并注入元数据存储池。

cephfs-data-scan scan_extents <data pool>
cephfs-data-scan scan_inodes <data pool>

如果数据存储池内的文件很多、或者有很大的文件，这个命令就要花费很长时间。要加快处理，可以让这个工具多跑几个例程。先确定例程数量、再传递给每个例程一个数字 N ，此数字应大于 0 且小于 (N - 1) ，像这样：

# Worker 0
cephfs-data-scan scan_extents <data pool> 0 1
# Worker 1
cephfs-data-scan scan_extents <data pool> 1 1
 
# Worker 0
cephfs-data-scan scan_inodes <data pool> 0 1
# Worker 1
cephfs-data-scan scan_inodes <data pool> 1 1

切记！！！所有运行 scan_extents 阶段的例程都结束后才能开始 scan_inodes 。