El pilar de confiabilidad del Atlas Well-Architected Framework incluye funcionalidades y estrategias que minimizan el tiempo de inactividad y evitan la pérdida de datos. Una carga de trabajo confiable es consciente de las fallas a medida que ocurren y puede tomar medidas eficientes y, a menudo, automáticas para recuperar la disponibilidad y recuperarse de la pérdida de datos.
Bases para la fiabilidad
A continuación se presentan los fundamentos para diseñar una implementación de Atlas confiable y resiliente:
Alta disponibilidad (HA): Implemente arquitecturas que se recuperen automáticamente cuando la infraestructura falle. HA proporciona conmutación por error automática con RPO = 0 y RTO en segundos.
Recuperación ante desastres (DR): Implementar procedimientos de recuperación manual utilizando copias de seguridad para escenarios que la conmutación por error automática no puede abordar, como la corrupción de datos o la eliminación accidental.
Planificación de la continuidad del negocio (BCP): Cree un plan integral que combine la arquitectura de alta disponibilidad, los procedimientos de recuperación ante desastres, las pruebas y la documentación para cumplir con sus objetivos de RTO y RPO.
Definiciones
Objetivo de tiempo de recuperación (RTO) es el tiempo máximo de inactividad aceptable antes de que la aplicación se recupere y comience a servir tráfico después de una interrupción.
El objetivo de punto de recuperación (RPO) es la cantidad máxima de datos que puedes permitirte perder en una Interrupción del servicio, medida en unidades de tiempo.
La disponibilidad es una medida de la fiabilidad con la que el sistema es accesible y funcional cuando es necesario. Suele expresarse como un porcentaje que representa la proporción de tiempo que el sistema está disponible en un periodo determinado. Por ejemplo, el estándar de referencia en disponibilidad se suele citar como 99.999%, o "cinco nueves", lo que equivale a aproximadamente 5 minutos y 25 segundos de tiempo de inactividad potencial por año.
Descripción general de las funcionalidades de Atlas para la fiabilidad
Atlas ofrece los siguientes enfoques complementarios para la confiabilidad:
Alta disponibilidad - Protección automática
Las implementaciones de Atlas utilizan conjuntos de réplicas con conmutación por error automática para proporcionar disponibilidad continua durante fallos de infraestructura. Cada clúster implementa un mínimo de tres instancias de base de datos distribuidas en diferentes zonas de disponibilidad. Cuando falla un nodo o una zona, la conmutación por error automática se completa en segundos sin pérdida de datos (cuando se utiliza
majority (escribe la preocupación). Escala tu implementación a través de múltiples regiones o proveedores de nube para protegerte contra interrupciones regionales o del proveedor.
Recuperación ante desastres - Protección manual
Las copias de seguridad ofrecen protección ante situaciones que la conmutación por error automática no puede solucionar, como la corrupción de datos, la eliminación accidental o la pérdida total de la implementación. Atlas ofrece copias de seguridad totalmente gestionadas con frecuencia configurable, recuperación a un punto específico en el tiempo y distribución multirregión. Estas requieren intervención manual para su restauración, pero protegen contra problemas de integridad de datos que se replican en todos los nodos.
Su plan integral
Combine ambos enfoques en un plan de continuidad del negocio que documente sus objetivos de recuperación, la arquitectura de implementación, la estrategia de respaldo, los procedimientos de prueba y los planes de respuesta para diferentes escenarios de fallas.
Utiliza los siguientes recursos del Atlas Architecture Center para aprender más sobre las funcionalidades y estrategias de confiabilidad en Atlas:
Alta disponibilidad
Crea configuraciones de clúster que satisfagan tus necesidades de disponibilidad y agilicen la recuperación ante desastres.
recuperación ante desastres
Implementar la recuperación manual mediante copias de seguridad en casos de corrupción de datos, eliminación accidental y situaciones que la conmutación por error automática no puede solucionar.
Planificación de la continuidad del negocio
Cree un plan integral de resiliencia que combine una arquitectura de alta disponibilidad, procedimientos de recuperación ante desastres, pruebas y documentación.