Atlas Well-Architected 프레임워크의 Reliability

Atlas 잘 설계된 프레임워크 의 안정성 기둥에는 다운타임을 최소화하고 데이터 손실을 방지하는 기능과 전략이 포함되어 있습니다. 안정적인 워크로드 오류가 발생하면 이를 인식하고 가용성을 회복하고 데이터 손실을 복구하기 위해 효율적이고 종종 자동으로 조치 취할 수 있습니다.

신뢰성 확보를 위한 기반

다음은 안정적이고 복원력이 뛰어난 Atlas 배포서버 설계하기 위한 기초입니다.

고가용성(HA): 인프라에 장애가 발생하면 자동으로 자가 복구되는 아키텍처를 배포합니다. HA는 RPO = 0 및 몇 초 만에 RTO 를 사용하여 자동 페일오버 제공합니다.
재해 복구(DR): 데이터 손상이나 실수로 삭제하는 등 자동 페일오버 로 주소 수 없는 시나리오에 대해 백업을 사용하여 수동 복구 절차를 구현합니다.
BCP(비즈니스 연속성 계획): RTO 및 RPO 목표를 달성하기 위해 HA 아키텍처, DR 절차, 테스트, 문서화를 결합하는 포괄적인 계획을 세웁니다.

정의

복구 시점 목표(RPO)는 장애 발생 후 애플리케이션이 복구되어 다시 트래픽을 처리하기 전까지 허용할 수 있는 최대 다운타임입니다.
복구 시점 목표(RPO) 는 서비스 중단 시 허용 가능한 최대 데이터 손실량을 의미하며, 시간 단위로 측정됩니다.
가용성은 시스템이 필요할 때 얼마나 안정적으로 접근 가능하고 정상 작동하는지를 나타내는 지표입니다. 이는 일반적으로 일정 기간 동안 시스템이 사용 가능했던 비율을 퍼센트로 표현합니다. 예를 들어 가용성의 표준으로 자주 언급되는 99.999%(또는 '파이브 나인')는 연간 약 5분 25초의 잠재적 다운타임에 해당합니다.

Atlas 안정성 기능 개요

Atlas 안정성을 위해 다음과 같은 보완적인 접근 방식을 제공합니다.

고가용성 - 자동 보호

Atlas 배포는 자동 페일오버 있는 복제본 세트를 사용하여 인프라 장애 시 지속적인 가용성을 제공합니다. 각 클러스터 서로 다른 가용영역에 분산된 최소 3개의 데이터베이스 인스턴스를 배포합니다. 노드 또는 구역 장애가 발생하면 자동 페일오버 데이터 손실 없이 몇 초 내에 완료됩니다( majority 쓰기 고려 (write concern) 사용 시). 여러 리전 또는 cloud 제공자로 배포서버 확장하여 리전 또는 제공자 중단으로부터 보호하세요.

재해 복구 - 수동 보호

백업은 데이터 손상, 우발적인 삭제 또는 전체 배포서버 손실과 같이 자동 페일오버 로 주소 수 없는 시나리오를 보호합니다. Atlas 구성 가능한 빈도, 특정 시점 복구, 다중 리전 배포를 통해 완전 관리형 백업을 제공합니다. 이를 복원 하려면 수동 개입이 필요하지만 모든 노드에 복제되는 데이터 무결성 문제로부터 보호합니다.

포괄적인 플랜

복구 목표, 배포서버 아키텍처, 백업 전략, 테스트 절차, 다양한 장애 시나리오에 대한 대응 계획을 문서화하는 비즈니스 연속성 계획에서 두 접근 방식을 모두 결합합니다.

Atlas의 신뢰성을 위한 기능 및 전략에 대해 더 알아보려면 다음 Atlas Architecture Center 리소스를 활용하세요.

고가용성

가용성 요구 사항을 충족하는 클러스터 구성을 생성하고 재해로부터 빠르게 복구할 수 있습니다.

재해 복구

데이터 손상, 우발적 삭제 및 자동 페일오버 로 주소 수 없는 시나리오에 대해 백업을 사용하여 수동 복구를 구현합니다.

비즈니스 연속성 계획

고가용성 아키텍처, 재해 복구 절차, 테스트 및 문서화를 결합한 포괄적인 회복 탄력성 계획을 세웁니다.

돌아가기

로깅

고가용성