El pilar de confiabilidad del Atlas Un marco de buena arquitectura incluye funciones y estrategias que minimizan el tiempo de inactividad y previenen la pérdida de datos. Una carga de trabajo confiable detecta los fallos en cuanto ocurren y puede tomar medidas eficientes, a menudo automáticas, para recuperar la disponibilidad y recuperarse de la pérdida de datos.
Bases para la fiabilidad
Hay dos bases para diseñar una implementación de Atlas confiable y resistente:
Diseña una arquitectura de implementación con opciones de configuración que aseguren una alta disponibilidad frente a las interrupciones previstas de la infraestructura.
Cree un plan de recuperación ante desastres que defina las mejores prácticas y procedimientos para recuperarse de escenarios de desastre dentro de su entorno establecido. RTO y RPO. Esto puede implicar la configuración de una política de copia de seguridad para complementar la estrategia de disponibilidad de tu implementación y proporcionar opciones de recuperación para eventos de pérdida o corrupción de datos.
Definiciones
Objetivo de tiempo de recuperación (RTO) es el tiempo máximo de inactividad aceptable antes de que la aplicación se recupere y comience a servir tráfico después de una interrupción.
El objetivo de punto de recuperación (RPO) es la cantidad máxima de datos que puedes permitirte perder en una Interrupción del servicio, medida en unidades de tiempo.
Ladisponibilidad mide la fiabilidad con la que su sistema es accesible y funcional cuando es necesario. Suele expresarse como un porcentaje que representa el tiempo que el sistema está disponible durante un período determinado. Por ejemplo, el estándar de oro de la disponibilidad suele ser el 99.999%, o "cinco nueves", lo que se traduce en aproximadamente 5 minutos y 25 segundos de tiempo de inactividad potencial al año.
Alta disponibilidad se refiere a la capacidad de un sistema para permanecer accesible cuando enfrenta fallas de componentes individuales. Una arquitectura de implementación diseñada para alta disponibilidad utiliza a menudo mecanismos de redundancia y conmutación por error para lograr tolerancia a fallos, lo que significa que puede cambiar automáticamente a componentes funcionales cuando se detecta un fallo.
Recuperación ante desastres se refiere a las estrategias para crear y gestionar copias discretas de la carga de trabajo que se puedan utilizar en situaciones de desastres. Un plan integral de recuperación ante desastres define los procedimientos para restablecer la operación del sistema dentro de un RTO especificado, y recuperar datos a una marca de tiempo dentro de un RPO especificado, tras un escenario de desastre.
Descripción general de las características de Atlas para la confiabilidad
Es importante combinar la arquitectura correcta de alta disponibilidad, el plan de recuperación ante desastres y la política de copias de seguridad para tu implementación con el fin de optimizar la fiabilidad mientras se equilibra el impacto de los costos.
La arquitectura de implementación por defecto de MongoDB está diseñada para una alta disponibilidad. Atlas despliega cada clúster como parte de un set de réplicas con un mínimo de tres instancias de base de datos (también llamadas nodos) distribuidas automáticamente en diferentes zonas de disponibilidad. En el evento de que se produzca una Interrupción del servicio de una sola zona, el traspaso entre instancias es completamente automático y se completa en segundos sin ninguna pérdida de datos, incluidas las operaciones que estaban en curso en el momento de la falla si escrituras reintentables está habilitado. Para mejorar la disponibilidad de las aplicaciones más críticas, se puede escalar la implementación agregando nodos, regiones o proveedores de nube para soportar Interrupciones del servicio de zona, región o proveedor.
Las copias de seguridad también son fundamentales para la fiabilidad del sistema. Si bien los sistemas diseñados para alta disponibilidad dependen menos de las copias de seguridad para protegerse contra la pérdida de datos, estas siguen siendo la mejor protección contra desastres, más allá de las interrupciones de la infraestructura que pueden provocar la pérdida o corrupción de datos, como amenazas humanas como ciberataques o errores de código. Una planificación sólida de la recuperación ante desastres implica decidir si una política de copias de seguridad es necesaria para cumplir con los objetivos de punto de recuperación (RPO) y de tiempo de recuperación (RTO) calculados.
Utiliza los siguientes recursos del Atlas Architecture Center para aprender más sobre las funcionalidades y estrategias de confiabilidad en Atlas:
Alta disponibilidad
Cree configuraciones de clúster que satisfagan sus necesidades de disponibilidad y aceleren la recuperación ante desastres.
Copias de seguridad
Configure las opciones de respaldo de la base de datos en Atlas y obtenga recomendaciones para cumplir con sus requisitos de RTO y RPO con instantáneas de todo el clúster.
Recuperación ante desastres
Cree un plan de recuperación ante desastres con los pasos a seguir si experimenta una interrupción, eliminación de datos de producción y más.