El pilar de confiabilidad del Atlas Un marco de buena arquitectura incluye funciones y estrategias que minimizan el tiempo de inactividad y previenen la pérdida de datos. Una carga de trabajo confiable detecta los fallos en cuanto ocurren y puede tomar medidas eficientes, a menudo automáticas, para recuperar la disponibilidad y recuperarse de la pérdida de datos.
Fundamentos de la confiabilidad
Hay dos bases para diseñar una implementación de Atlas confiable y resistente:
Diseñar una arquitectura de implementación con opciones de configuración que garanticen una alta disponibilidad ante interrupciones previstas de la infraestructura.
Cree un plan de recuperación ante desastres que defina las mejores prácticas y procedimientos para recuperarse de escenarios de desastre dentro de su entorno establecido. RTO y RPO. Esto puede implicar la configuración de una política de copias de seguridad para complementar la estrategia de disponibilidad de su implementación y ofrecer opciones de recuperación ante eventos de pérdida o corrupción de datos.
Definiciones
El objetivo de tiempo de recuperación(RTO) es el tiempo de inactividad máximo aceptable antes de que la aplicación se restaure y comience a brindar tráfico después de una interrupción.
El objetivo depunto de recuperación (RPO) es la cantidad máxima de datos que puede permitirse perder en una interrupción, medida en unidades de tiempo.
Ladisponibilidad mide la fiabilidad con la que su sistema es accesible y funcional cuando es necesario. Suele expresarse como un porcentaje que representa el tiempo que el sistema está disponible durante un período determinado. Por ejemplo, el estándar de oro de la disponibilidad suele ser el 99.999%, o "cinco nueves", lo que se traduce en aproximadamente 5 minutos y 25 segundos de tiempo de inactividad potencial al año.
Alta disponibilidad se refiere a la capacidad de un sistema para permanecer accesible cuando enfrenta fallas de componentes individuales. Una arquitectura de implementación diseñada para alta disponibilidad utiliza a menudo mecanismos de redundancia y conmutación por error para lograr tolerancia a fallos, lo que significa que puede cambiar automáticamente a componentes funcionales cuando se detecta un fallo.
La recuperación ante desastres se refiere a las estrategias para crear y gestionar copias discretas de la carga de trabajo que pueden utilizarse en situaciones de desastre. Un plan integral de recuperación ante desastres define los procedimientos para restablecer el funcionamiento del sistema dentro de un RTO específico y recuperar los datos con una marca de tiempo dentro de un RPO específico, tras un desastre.
Descripción general de las características de Atlas para la confiabilidad
Es importante combinar la arquitectura de alta disponibilidad, el plan de recuperación ante desastres y la política de respaldo adecuados para su implementación a fin de optimizar la confiabilidad y equilibrar el impacto en los costos.
La arquitectura de implementación predeterminada de MongoDB está diseñada para alta disponibilidad. Atlas implementa cada clúster como parte de un conjunto de réplicas con un mínimo de tres instancias de base de datos (también llamadas nodos) distribuidas automáticamente en diferentes zonas de disponibilidad. En caso de una interrupción en una sola zona, la conmutación por error entre instancias es totalmente automática y se completa en segundos sin pérdida de datos, incluidas las operaciones en curso en el momento de la falla si las escrituras reintentables están habilitadas. Para mejorar la disponibilidad de sus aplicaciones más críticas, puede escalar su implementación añadiendo nodos, regiones o proveedores de nube para soportar interrupciones en zonas, regiones o proveedores.
Las copias de seguridad también son fundamentales para la fiabilidad del sistema. Si bien los sistemas diseñados para alta disponibilidad dependen menos de las copias de seguridad para protegerse contra la pérdida de datos, estas siguen siendo la mejor protección contra desastres, más allá de las interrupciones de la infraestructura que pueden provocar la pérdida o corrupción de datos, como amenazas humanas como ciberataques o errores de código. Una planificación sólida de la recuperación ante desastres implica decidir si una política de copias de seguridad es necesaria para cumplir con los objetivos de punto de recuperación (RPO) y de tiempo de recuperación (RTO) calculados.
Utilice los siguientes recursos del Centro de Arquitectura Atlas para obtener más información sobre las características y estrategias de confiabilidad en Atlas:
Alta disponibilidad
Cree configuraciones de clúster que satisfagan sus necesidades de disponibilidad y aceleren la recuperación ante desastres.
Copias de seguridad
Configure las opciones de respaldo de la base de datos en Atlas y obtenga recomendaciones para cumplir con sus requisitos de RTO y RPO con instantáneas de todo el clúster.
Recuperación ante desastres
Cree un plan de recuperación ante desastres con los pasos a seguir si experimenta una interrupción, eliminación de datos de producción y más.