Docs 菜单
Docs 主页
/ /
Atlas 架构中心

Atlas Well-Architected 框架中的 Reliability

Atlas Well-Architected 框架框架中的“可靠性”支柱包含可最大限度减少停机并防止数据丢失的功能和策略。可靠的工作负载能够在故障发生时及时感知,并采取高效且通常自动的措施来恢复可用性和数据。

设计一个可靠且有弹性的 Atlas 部署有两个基础:

  • 设计具有相应配置选项的部署架构,以确保在可能发生的基础设施中断情况下仍能保持高可用性。

  • 创建灾难恢复计划,定义最佳实践和流程,以便在既定的 RTORPO 内从灾难场景中恢复。这可能包括配置备份策略,以补充部署的可用性策略,并在数据丢失或损坏事件中提供恢复选项。

  • 恢复时间目标 (RTO)是指在中断后,应用程序恢复并开始提供服务之前可接受的最长停机时间。

  • 恢复点目标 (RPO)是指在服务中断时,您可以承受的最大数据丢失量,以时间单位来衡量。

  • 可用性是衡量系统在需要时可访问和功能正常的可靠性。它通常以百分比形式表示,反映系统在给定时间段内的可用时间占比。示例,可用性的黄金标准通常被认为是 99.999%,或称为“五个9”,这意味着每年大约有 5 分 25 秒的潜在停机时间。

  • 高可用性是指系统在面对单个组件故障时仍能保持可访问性的能力。为高可用性而设计的部署架构通常利用冗余和故障转移机制来实现容错,这意味着当检测到故障时,它可以自动切换到工作组件。

  • 灾难恢复是指在灾难情况下用于创建和管理工作负载独立副本的策略。全面的灾难恢复计划定义了在灾难发生后,在指定的RTO内恢复系统操作的程序,并在指定的RPO内将数据恢复到某个时间戳。

结合正确的高可用性架构、灾难恢复计划和备份策略对于您的部署至关重要,以便在平衡成本影响的同时优化可靠性。

MongoDB 的默认部署架构旨在实现高可用性。Atlas 将每个集群部署为副本集的一部分,至少包含三个数据库实例(也称为节点),这些实例会自动分布在不同的可用区。在单个区域服务中断的事件中,实例之间的故障转移是全自动的,并在几秒钟内完成,不会丢失任何数据,包括故障发生时正在进行的操作(如果启用了可重试写入)。为了提高您最关键的应用程序的可用性,您可以通过添加节点、区域或云提供商来扩展部署,以抵御可用区、区域或提供商的服务中断。

备份对于系统的可靠性也至关重要。虽然为高可用性而设计的系统较少依赖备份来防止数据丢失,但备份仍然是针对基础设施之外的灾难场景的最佳保护,这些灾难场景可能导致数据丢失或损坏,例如网络攻击或代码错误等人为威胁。强大的灾难恢复计划涉及决定是否需要备份策略来满足计算的 RPO 和 RTO。

使用以下 Atlas Architecture Center 资源,了解更多关于 Atlas 可靠性功能和策略的信息:

Atlas高可用性图标

高可用性

创建满足可用性需求并加快灾难恢复的集群配置。

MongoDB 备份图标

备份

在 Atlas 中配置数据库备份选项,并获得建议,以满足集群范围快照的 RTORPO 要求。

MongoDB 云灾难恢复图标

灾难恢复

创建灾难恢复计划,说明在遇到中断、生产数据删除等情况时要采取的步骤。

后退

日志记录