Un plan de continuidad del negocio garantiza que sus aplicaciones permanezcan disponibles y recuperables durante las interrupciones. Su plan debe combinar:
Alta disponibilidad (HA): Implementar arquitecturas que se recuperen automáticamente cuando la infraestructura falle.
Recuperación ante desastres (DR): Establezca procedimientos para la recuperación manual cuando la conmutación por error automática no pueda ser de ayuda.
Pruebas: Validar periódicamente las capacidades de alta disponibilidad (HA) y recuperación ante desastres (DR).
Documentación: Mantenga procedimientos y objetivos de recuperación claros.
Nota
El Modelo de Responsabilidad Compartida de MongoDB Atlas define los deberes complementarios de MongoDB y sus clientes en el mantenimiento de un entorno de datos seguro y resiliente. Bajo este marco, MongoDB gestiona la seguridad y la integridad operativa de la plataforma subyacente, mientras que los clientes son responsables de la configuración, gestión y políticas de datos de sus implementaciones específicas. Para obtener un desglose detallado de la propiedad en materia de seguridad y excelencia operativa, consulta Modelo de responsabilidad compartida.
Elige tu estrategia de resiliencia
En función de sus necesidades, elija entre los siguientes enfoques principales:
Alta disponibilidad - Autocuración automática
Elija HA cuando necesite un tiempo de inactividad prácticamente nulo y pueda implementarlo en múltiples zonas de disponibilidad (AZ), regiones o proveedores de nube.
Características:
Conmutación automática por error sin intervención manual.
RPO = 0 cuando se utiliza
majoritynivel de confirmación de escritura (write concern).RTO = segundos.
Mayor coste de infraestructuras.
Cuándo usarlo: En la mayoría de las implementaciones de producción, especialmente cuando:
Tienes usuarios en varias regiones.
Su aplicación requiere disponibilidad continua.
Puede realizar implementaciones en regiones con 3o más zonas de disponibilidad.
Para aprender más, Guía para los paradigmas de alta disponibilidad e implementación de Atlas.
Recuperación ante desastres - Recuperación manual
Elija DR cuando HA no sea factible o rentable, como por ejemplo:
Restricciones geográficas, como Canadá con solo 2 regiones.
Aplicaciones sensibles al costo.
Tolerancia a los procedimientos de recuperación manual.
Características:
Se requiere intervención manual.
RPO > 0, dependiendo de la frecuencia de copia de seguridad.
RTO = minutos a horas.
Menor costo de infraestructura, se aplican costos de almacenamiento de respaldo.
Cuándo usarlo:
Las limitaciones geográficas o normativas impiden su implementación en múltiples regiones.
Las restricciones presupuestarias exigen una optimización de costes.
La aplicación puede tolerar tiempos de inactividad planificados para su recuperación.
Para obtener más información, consulte la Guía para la recuperación ante desastres de Atlas.
Combinando HA y DR
La mayoría de los entornos de producción se benefician de la combinación de ambos enfoques para proporcionar una protección integral:
Alta disponibilidad para fallos de infraestructura: La conmutación por error automática protege contra interrupciones de nodos, zonas, regiones o proveedores.
Recuperación ante desastres para problemas de integridad de datos: Las copias de seguridad protegen contra escenarios que la conmutación por error automática no puede solucionar.
Por qué podrías beneficiarte de la DR incluso con HA
Incluso con una implementación de alta disponibilidad, podría beneficiarse de los procedimientos de recuperación ante desastres para:
- Corrupción o eliminación accidental de datos
- La alta disponibilidad replica los datos dañados en todos los nodos. Para recuperar un estado anterior al daño o la eliminación, debe restaurar los datos a partir de copias de seguridad.
- Fallos a nivel de aplicación
- Errores de código o ataques maliciosos que afectan la integridad de los datos, en lugar de la infraestructura. El estado corrupto se ha replicado en todo el conjunto de réplicas.
- Requisitos de cumplimiento
- Muchas normativas exigen capacidades de recuperación en un momento específico y políticas de retención de copias de seguridad que van más allá de lo que proporciona la conmutación por error automática.
Este enfoque por capas proporciona una protección integral al tiempo que optimiza tanto la disponibilidad como la integridad de los datos.
Define tus objetivos de recuperación
Establezca objetivos de recuperación claros para guiar sus decisiones sobre arquitectura y copias de seguridad:
Objetivo de Punto de Recuperación (RPO)
La cantidad máxima aceptable de pérdida de datos medida en tiempo.
Ejemplos:
RPO 0 =: Usar HA con
majoritypreocupación de escritura.RPO = 1 hora: Configurar instantáneas por hora.
RPO = 1 día: Configurar instantáneas diarias.
Objetivo de tiempo de recuperación (RTO)
El tiempo máximo aceptable para restablecer el servicio después de una interrupción.
Ejemplos:
RTO = segundos: Utilice HA con conmutación por error automática.
RTO = 1 hora: Asegúrese de que los procedimientos de restauración de copias de seguridad se completen en <1 hora.
RTO = 4 horas: Documentar y probar los procedimientos de recuperación manual.
Su paradigma de implementación y estrategia de respaldo deben estar alineados con estos objetivos. Utilice las tablas comparativas de la Guía para la alta disponibilidad de Atlas y la Guía para la recuperación ante desastres de Atlas para evaluar las opciones.
Pon a prueba tu plan con regularidad.
Ponga a prueba su plan de continuidad del negocio al menos dos veces al año (se recomienda hacerlo trimestralmente). Las pruebas validan sus procedimientos y capacitan a su equipo.
Prueba de conmutación por error de alta disponibilidad
Pruebas automatizadas:
Utilice la función de prueba de conmutación por error principal de la interfaz de usuario de Atlas.
Utilice el punto final de la API de administración de Test Failover Atlas.
Simular interrupciones regionales para implementaciones multirregionales.
Validar:
La conmutación por error se completa dentro del tiempo de recuperación previsto.
Las aplicaciones se reconectan automáticamente.
No se produce pérdida de datos (RPO = 0).
Procedimientos de prueba para la recuperación ante desastres
Pruebas de recuperación manual:
Practica la restauración a partir de copias de seguridad en entornos que no sean de producción.
Documente los tiempos de recuperación reales y compárelos con el RTO (tiempo de recuperación objetivo).
Verifique la integridad de los datos restaurados.
Pruebe las restauraciones entre regiones si utiliza una distribución de instantáneas multirregional.
Validar:
El equipo sigue correctamente los procedimientos documentados.
La recuperación se completa dentro del plazo previsto.
La pérdida de datos se ajusta al RPO previsto.
Todas las dependencias (redes, credenciales) funcionan correctamente.
Es posible que algunas pruebas requieran acciones no disponibles para los usuarios estándar. Abra un caso de soporte con al menos una semana de anticipación para programar interrupciones artificiales u otros escenarios de prueba restringidos.
Documenta tu plan
Mantenga una documentación clara para su plan de continuidad del negocio:
Documentación requerida
Objetivos de recuperación:
RPO y RTO documentados para cada nivel de aplicación.
Justificación del paradigma de implementación elegido.
Decisiones sobre la frecuencia y la retención de las copias de seguridad.
Documentación de arquitectura:
Topología de despliegue (regiones, zonas, proveedores de nube).
Arquitectura de red y comportamiento ante fallos.
Topología de despliegue de la aplicación.
Dependencias de servicios de terceros.
Procedimientos de recuperación:
Procedimientos de restauración paso a paso.
Información de contacto del equipo de guardia.
Rutas de escalamiento para diferentes tipos de escenarios.
Enlaces a paneles de control y alertas de monitorización.
Resultados de la prueba:
Fechas y resultados históricos de la ejecución de pruebas.
Problemas detectados y estado de las medidas correctivas.
Modificaciones en los procedimientos basadas en las lecciones aprendidas de las pruebas.
Mantenga la documentación actualizada revisándola y actualizándola después de cada ejercicio de prueba o cambio de infraestructura.
Escenarios comunes y planes de respuesta
Prepare planes de respuesta para escenarios de interrupción comunes. Para obtener información detallada sobre los procedimientos, consulte las secciones específicas de cada escenario en la Guía para la recuperación ante desastres de Atlas.
Fallos de infraestructura (escenarios de alta disponibilidad)
Fallo de un solo nodo:
Implementaciones de alta disponibilidad: conmutación por error automática, no se requiere ninguna acción.
Supervise la correcta conmutación por error y la restauración del nodo.
Interrupción de la zona de disponibilidad:
Implementaciones Multi-AZ: Conmutación por error automática, sin necesidad de realizar ninguna acción.
Verifique que la aplicación siga atendiendo tráfico.
Interrupción regional:
Implementaciones multirregionales: Conmutación automática a otra región.
Asegúrese de que la aplicación también esté implementada en varias regiones.
Verifique que los servicios de terceros sigan estando accesibles.
Interrupción del servicio del proveedor de la nube:
Implementaciones multinube: Conmutación automática a otro proveedor.
Implementaciones en una sola nube: Ejecute los procedimientos de recuperación ante desastres.
Problemas de integridad de datos (escenarios de recuperación ante desastres)
Corrupción de datos:
Identificar la marca de tiempo de la corrupción.
Restaurar desde la copia de seguridad anterior a que se produjera la corrupción.
Para realizar copias de seguridad continuas: utilice la restauración a un punto en el tiempo.
Eliminación accidental:
Identificar la marca de tiempo de eliminación.
Restaurar desde la copia de seguridad anterior a la eliminación.
Verifique la integridad de los datos restaurados.
Pérdida total del despliegue:
Ejecutar los procedimientos de recuperación ante desastres documentados.
Restaurar desde la copia de seguridad más reciente.
Validar la funcionalidad de la aplicación.
Fallos en el plano de control:
Extremadamente raro. Atlas mantiene una alta fiabilidad.
Contacta inmediatamente con el soporte de MongoDB.
Para obtener información detallada sobre los procedimientos de recuperación para cada escenario, consulte la Guía para la recuperación ante desastres de Atlas.