Atlas Well-Architected フレームワークにおける Reliability

Atlas 適切にアーキテクチャされたフレームワークの信頼性のピリオドには、ダウンタイムを最小限に抑え、データの損失を防ぐ機能と戦略が含まれています。信頼できるワークロードは障害の発生を認識し、可用性を回復し、データ損失から回復するために、効率的で多くの場合自動的なアクションを実行します。

信頼性の基盤

以下は、信頼でき、回復力のある Atlas 配置を設計するための基礎です。

高可用性（HA）: インフラストラクチャに障害が発生した場合に自動的に自己修復するアーキテクチャを配置します。HA では、RPO = 0 および RTO による自動フェイルオーバーが秒単位で提供されます。
障害復旧（DR）: データの破損や誤っての削除など、自動フェイルオーバーでは処理できないシナリオで、バックアップを使用して手動復元手順を実装します。
ビジネス継続的計画（BCP）: RTO と RPO の目的を満たすために、HA アーキテクチャ、DR 手順、テスト、ドキュメントを組み合わせた包括的なプランを作成します。

定義

リカバリ時間目的（RTO）は、アプリケーションが復旧し、トラフィックの処理を再開するまでに許容される最大の停止時間です。
リカバリポイント目的（RPO: Recovery Point Objective）は、停止時に失うことを許容できるデータ量の最大値を、時間単位で表したものです。
可用性は、システムが必要なときに、どの程度信頼性をもってアクセス可能で機能するかを測る指標です。通常、システムが一定期間に稼働している時間の割合を示すパーセンテージで表されます。例として、可用性のゴールドスタンダードは 99.999％、つまり「ファイブナイン」として引用されることが多く、これは年間で約 5 分 25 秒の潜在的なダウンタイムに相当します。

Atlas の信頼性機能の概要

Atlas は、信頼性に関する次の補完的なアプローチを提供します。

高可用性 - 自動保護

Atlas 配置は、インフラストラクチャ障害時に継続的な可用性を提供するために、自動フェイルオーバーを持つレプリカセットを使用します。各クラスターは、少なくとも 3 つのデータベースインスタンスを異なるアベイラビリティーゾーンに分散して配置します。ノードまたはゾーンに障害が発生すると、自動フェイルオーバーは秒以内に完了し、データは損失されません（majority書込み保証 (write concern)）を使用する場合）。複数のリージョンまたはクラウドプロバイダーに配置を拡張して、リージョンまたはプロバイダーの停止から保護します。

障害復旧 - 手動保護

バックアップは、データの破損、誤って削除、配置の完全な損失など、自動フェイルオーバーでは処理できないシナリオを保護します。Atlas は、設定可能な頻度、ポイントインタイムリカバリ、マルチリージョン分散による完全管理バックアップを提供します。これらの場合、復元するには手動による介入が必要ですが、すべてのノードに複製されるデータの整合性の問題から保護されます。

包括的なプラン

両方のアプローチを組み合わせてビジネス継続的プランを記録し、リカバリ目的、配置アーキテクチャ、バックアップ戦略、テスト手順、さまざまな障害シナリオに対する対応プランを文書化します。

Atlas での信頼性に関する機能や戦略についてさらに学ぶには、次の Atlas Architecture Center のリソースを参照してください。

高可用性

可用性のニーズを満たすクラスター構成を作成し、障害からの回復を迅速化します。

障害復旧

データの破損、誤って削除、自動フェイルオーバーでは対応できないシナリオでは、バックアップを使用して手動リカバリを実装します。

ビジネス継続計画

高可用性アーキテクチャ、障害復旧手順、テスト、ドキュメントを組み合わせた包括的な回復力プランを作成します。

戻る

ログ記録

高可用性