Fiabilidad en el marco Atlas Well-Architected

El pilar de Fiabilidad del Atlas Well-Architected Framework incluye funcionalidades y estrategias que minimizan el tiempo de inactividad y evitan la pérdida de datos. Una carga de trabajo confiable es consciente de los fallos a medida que ocurren y puede tomar medidas eficientes, y a menudo automáticas, para recuperar la disponibilidad y recuperarse de la pérdida de datos.

Bases para la fiabilidad

Los siguientes son los pilares para diseñar una implementación de Atlas confiable y resiliente:

Alta disponibilidad (HA): Implementar arquitecturas que se auto reparen automáticamente cuando la infraestructura falle. HA proporciona conmutación por error automática con RPO = 0 y RTO en segundos.
Recuperación ante Desastres (DR): Implementar procedimientos manuales de recuperación utilizando copias de seguridad para escenarios que la conmutación por error automática no pueda solucionar, como la corrupción de datos o la eliminación accidental.
Planificación de la Continuidad de Negocios (BCP): Elabora un plan integral que combine la arquitectura HA, los procedimientos de DR, las pruebas y la documentación para cumplir con tus objetivos de RTO y RPO.

Definiciones

Objetivo de tiempo de recuperación (RTO) es el tiempo máximo de inactividad aceptable antes de que la aplicación se recupere y comience a servir tráfico después de una interrupción.
El objetivo de punto de recuperación (RPO) es la cantidad máxima de datos que puedes permitirte perder en una Interrupción del servicio, medida en unidades de tiempo.
La disponibilidad es una medida de la fiabilidad con la que el sistema es accesible y funcional cuando es necesario. Suele expresarse como un porcentaje que representa la proporción de tiempo que el sistema está disponible en un periodo determinado. Por ejemplo, el estándar de referencia en disponibilidad se suele citar como 99.999%, o "cinco nueves", lo que equivale a aproximadamente 5 minutos y 25 segundos de tiempo de inactividad potencial por año.

Descripción general de las funcionalidades de Atlas para la fiabilidad

Atlas proporciona los siguientes enfoques complementarios a la confiabilidad:

Alta disponibilidad - Protección automática

Las implementaciones de Atlas utilizan sets de réplicas con conmutación por error automática para garantizar una disponibilidad continua durante los fallos de infraestructura. Cada clúster implementa un mínimo de tres instancias de base de datos distribuidas en diferentes zonas de disponibilidad. Cuando un nodo o zona falla, la conmutación por error automática se completa en segundos con cero pérdida de datos (cuando se utiliza majority nivel de confirmación de escritura (write concern)). Escala tu implementación en múltiples regiones o proveedores de nube para protegerse contra interrupciones del servicio regionales o de proveedores.

Recuperación ante desastres: protección manual

Las copias de seguridad proporcionan protección en situaciones que la conmutación automática por error no puede abordar, como corrupción de datos, eliminación accidental o pérdida total de la implementación. Atlas ofrece copias de seguridad totalmente gestionadas con una frecuencia configurable, recuperación en un punto en el tiempo y distribución multiregión. Estos requieren intervención manual para restaurar, pero protegen contra problemas de integridad de datos que se replican en todos los nodos.

Tu Plan Integral

Combina ambos enfoques en un plan de continuidad de negocio que documente tus objetivos de recuperación, arquitectura de implementación, estrategia de copia de seguridad, procedimientos de prueba y planes de respuesta para diferentes escenarios de fallos.

Utiliza los siguientes recursos del Atlas Architecture Center para aprender más sobre las funcionalidades y estrategias de confiabilidad en Atlas:

Alta disponibilidad

Crea configuraciones de clúster que satisfagan tus necesidades de disponibilidad y agilicen la recuperación ante desastres.

recuperación ante desastres

Implementar la recuperación manual utilizando copias de seguridad para casos de corrupción de datos, eliminación accidental y escenarios que la conmutación por error automática no pueda abordar.

Planificación de la continuidad del negocio

Cree un plan integral de resiliencia que combine arquitectura de alta disponibilidad, procedimientos de recuperación ante desastres, pruebas y documentación.

Volver

Registro

Alta disponibilidad