排除备份和恢复故障

Ops Manager托管的部署的备份和恢复操作可能会因各种原因而失败，包括代理连接问题、磁盘空间限制或oplog不一致。

本页介绍如何确认备份和恢复失败，概述了常见原因和解决方案，并提供了在联系支持之前应收集哪些信息的指导。如果完成以下步骤后问题仍然存在，联系技术支持。

先决条件检查

在调查备份或恢复失败的根本原因之前，请检查Ops Manager用户界面或API中的相关状态指示器，确认已发生故障。

检查备份故障

使用以下方法确认备份作业或快照已失败。

检查快照状态

要确认快照是否失败，请执行以下操作：

导航到Ops Manager用户界面中的快照。

单击 Admin。
单击 Backups（连接）。
单击 Snapshots（连接）。

搜索副本集或部署。

查看 State 列。

该列显示快照是成功、正在运行还是失败。

您还可以单击快照旁边的 JSON 以查看其他字段，包括：

status
createdDate
completedDate
totalDuration
transferSpeed

这些字段有助于确认备份是否成功完成。

有关所有快照状态的说明，请参阅备份概述。

检查备份作业页面

要检查正在进行的备份作业是否存在问题，请执行以下操作：

导航到备份作业页面。

单击 Admin（连接）。
单击 Backup（连接）。
单击 Jobs（连接）。

查找您的副本集或集群。

查找突出显示的字段。

Last Snapshot、Last Oplog 或 Head Time 等字段在延迟时可能会突出显示，表明备份进程出现问题。

有关更多信息，请参阅作业。

检查备份日志

要查看备份作业的错误消息，请执行以下操作：

导航到日志。

单击 Admin（连接）。
单击 Logs（连接）。

筛选备份作业。

日志显示按时间分组的错误消息，这有助于诊断备份作业失败的原因。

检查警报

Ops Manager会生成警报，指示备份作业的故障或问题，包括：

“备份已达到较高的重试次数”
“备份处于意外状态”
“副本集有一个延迟快照”

有关备份相关警报条件的完整列表，请参阅警报条件。

查询API是否有不完整的Atlas 备份快照

要检索尚未完成的快照，请使用 completed=false查询参数查询Ops Manager API ：

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
  --header "Accept: application/json" \
  "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"

响应包括一个 results数组，其中每个对象代表一个快照。complete字段指示快照是否成功完成。

注意

快照API不提供指定的故障状态。complete: false 的快照可能仍在进行中，也可能已失败。

有关更多信息，请参阅获取一个集群的所有Atlas 备份快照。

检查恢复失败

使用以下方法确认恢复作业是否失败。

检查恢复页面

要在Ops Manager用户界面中查看恢复作业的状态，请执行以下操作：

单击 Deployment。

单击您的集群或副本集。

单击 Backup标签页。

单击 Restores。

Restores 页面显示最近 300 个恢复作业的表格。检查 Status 列以确定具有以下状态的作业：

FAILED
CANCELED
IN_PROGRESS
FINISHED

单击某一行可查看有关该特定恢复操作的更多详细信息。

有关详细信息，请参阅恢复。

查询API以查找失败的恢复作业

要以编程方式检索恢复作业，查询Ops Manager API：

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
  --header "Accept: application/json" \
  "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"

响应包括一个 results数组，其中每个对象代表一个恢复作业。statusName字段表示作业状态。可能的值包括：

FINISHED
IN_PROGRESS
BROKEN
KILLED

statusName 为 BROKEN 或 KILLED 的恢复作业被视为失败。

要使用 jq过滤失败的作业：

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
  --header "Accept: application/json" \
  "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \
  | jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'

有关详细信息，请参阅获取一个集群的所有恢复作业。

常见问题和解决方案

以下部分介绍备份和恢复失败的常见原因以及解决方法。

备份失败

以下部分介绍备份失败的常见原因以及解决方法。

磁盘空间不足

副本集成员节点上可用磁盘空间不足可能导致集群进入不健康状态，从而导致备份失败。

要解决此问题，请增加受影响节点 dbPath 上的可用存储容量。定期监控磁盘使用情况，防止类似情况再次发生。

MongoDB Agent 已关闭或不稳定

备份进程取决于持续运行的MongoDB 助手。如果代理停止或不断重新启动，则备份将失败。

症状包括：

诸如“备份 oplog is后台”之类的警报
一小时内未收到oplog切片

要解决此问题，请执行以下操作：

验证代理进程是否正在托管上运行。

检查代理日志。

代理日志通常位于：

/var/log/mongodb-mms-automation/backup-agent.log

修复导致重启的任何权限问题或配置错误。

有关更多信息，请参阅修复备份 oplog 问题。

代理无法访问副本集

备份代理必须保持与副本集的连接。失败可能是由于网络连接问题、不可用的MongoDB节点或身份验证失败造成的。

代理日志中的症状包括：

server selection timeout
Authentication failed

要解决此问题，请执行以下操作：

测试来自备份代理托管的连接。

mongosh "mongodb://host:port"

验证网络访问权限和凭证。

确认以下内容：

代理托管和副本集节点之间的网络访问权限
副本集可用性
备份用户凭证和所需角色

有关更多信息，请参阅修复备份 oplog 问题。

Oplog 问题

如果oplog太小或备份代理无法跟上写入活动，备份会滞后并最终失败。

症状包括以下警报：

“备份需要重新同步”
“备份oplog落后”

要解决此问题，请执行以下操作：

增加oplog大小，以便oplog window涵盖足够的历史记录（建议至少 24 小时）。
如果备份严重落后，请重新同步备份。

备份作业无法绑定到备份守护程序

备份作业需要具有足够空间的备份守护程序来存储已备份副本集的本地副本。如果没有守护进程有足够的空间，则作业无法绑定。要解决此问题，请添加额外的备份守护程序以增加容量。

在副本集未检测到主节点 (primary node in the replica set)时，也可能会出现此问题。要解决此问题，请在重试备份之前确保副本集运行正常且具有主节点 (primary node in the replica set)。

有关更多信息，请参阅备份常见问题解答。

恢复失败

以下部分介绍恢复失败的常见原因以及解决方法。

尝试恢复分片集群中的单个分片

恢复分片集群时，必须恢复所有分片。如果您尝试单独恢复单个分片，隔离性恢复进程将失败。

有关更多信息，请参阅恢复限制。

备份和目标数据库之间的设置不匹配

当源备份和目标数据库的某些存储设置不匹配时，自动恢复可能会失败。如果恢复尝试失败， Ops Manager会显示任何不匹配的设置。

有关必须匹配的设置列表，请参阅自动恢复失败的潜在原因。

时间点恢复期间的 Oplog 间隔

时点还原需要连续的oplog历史记录。如果oplog中存在间隔，则恢复将失败。

oplog间隙的常见原因包括：

备份代理停止跟踪oplog。
oplog在代理处理之前发生滚动。
集群拓扑结构发生更改。
发生特征兼容性版本 (FCV) 更改。
尝试在MongoDB版本更改之间进行恢复。

要解决此问题，请执行以下操作：

从oplog间隙之前拍摄的最新有效快照恢复，或者
等待创建新快照，然后再次执行恢复。

有关详细信息，请参阅从特定时间点恢复。

恢复主机上磁盘空间不足

如果目标托管没有足够的存储来容纳快照文件和已恢复的数据库，则恢复会失败。

要解决此问题，请执行以下操作：

检查要恢复的数据库的大小。

db.stats()

确保目标托管上有足够的磁盘空间。

在继续之前，请验证 dbPath 是否有足够的可用磁盘空间来容纳恢复的数据。

有关 dbStats 命令的更多信息，请参阅 dbStats。

为获得更多支持而收集的诊断信息

如果问题仍然存在，请在联系技术支持之前收集以下信息：

来自Ops Manager用户界面或API 的完整错误消息
备份代理日志文件
MongoDB服务器版本
Ops Manager 版本
相关MongoDB服务器日志
恢复页面或API恢复作业查询的输出

了解详情

后退

在意外关闭后恢复独立实例

来年

监控集群

先决条件检查

检查备份故障

检查快照状态

导航到Ops Manager用户界面中的快照。

搜索副本集或部署。

查看 State 列。

检查备份作业页面

导航到备份作业页面。

查找您的副本集或集群。

查找突出显示的字段。

检查备份日志

导航到日志。

筛选备份作业。

检查警报

查询API是否有不完整的Atlas 备份快照

注意

检查恢复失败

检查恢复页面

单击 Deployment。

单击您的集群或副本集。

单击 Backup标签页。

单击 Restores。

查询API以查找失败的恢复作业

常见问题和解决方案

备份失败

磁盘空间不足

MongoDB Agent 已关闭或不稳定

验证代理进程是否正在托管上运行。

检查代理日志。

修复导致重启的任何权限问题或配置错误。

代理无法访问副本集

测试来自备份代理托管的连接。

验证网络访问权限和凭证。

Oplog 问题

备份作业无法绑定到备份守护程序

恢复失败

尝试恢复分片集群中的单个分片

备份和目标数据库之间的设置不匹配

时间点恢复期间的 Oplog 间隔

恢复主机上磁盘空间不足

检查要恢复的数据库的大小。

确保目标托管上有足够的磁盘空间。

为获得更多支持而收集的诊断信息

相关问题

了解详情