Make the MongoDB docs better! We value your opinion. Share your feedback for a chance to win $100.
Click here >
Docs Menu
Docs Home
/ /

Guía para la planificación de la continuidad del negocio de Atlas

Un plan de continuidad del negocio garantiza que sus aplicaciones permanezcan disponibles y recuperables durante las interrupciones. Su plan debe combinar:

  • Alta disponibilidad (HA): Implementar arquitecturas que se recuperen automáticamente cuando la infraestructura falle.

  • Recuperación ante desastres (DR): Establezca procedimientos para la recuperación manual cuando la conmutación por error automática no pueda ser de ayuda.

  • Pruebas: Validar periódicamente las capacidades de alta disponibilidad (HA) y recuperación ante desastres (DR).

  • Documentación: Mantenga procedimientos y objetivos de recuperación claros.

Nota

El Modelo de Responsabilidad Compartida de MongoDB Atlas define los deberes complementarios de MongoDB y sus clientes en el mantenimiento de un entorno de datos seguro y resiliente. Bajo este marco, MongoDB gestiona la seguridad y la integridad operativa de la plataforma subyacente, mientras que los clientes son responsables de la configuración, gestión y políticas de datos de sus implementaciones específicas. Para obtener un desglose detallado de la propiedad en materia de seguridad y excelencia operativa, consulta Modelo de responsabilidad compartida.

En función de sus necesidades, elija entre los siguientes enfoques principales:

Elija HA cuando necesite un tiempo de inactividad prácticamente nulo y pueda implementarlo en múltiples zonas de disponibilidad (AZ), regiones o proveedores de nube.

Características:

  • Conmutación automática por error sin intervención manual.

  • RPO = 0 cuando se utiliza majority nivel de confirmación de escritura (write concern).

  • RTO = segundos.

  • Mayor coste de infraestructuras.

Cuándo usarlo: En la mayoría de las implementaciones de producción, especialmente cuando:

  • Tienes usuarios en varias regiones.

  • Su aplicación requiere disponibilidad continua.

  • Puede realizar implementaciones en regiones con 3o más zonas de disponibilidad.

Para aprender más, Guía para los paradigmas de alta disponibilidad e implementación de Atlas.

Elija DR cuando HA no sea factible o rentable, como por ejemplo:

  • Restricciones geográficas, como Canadá con solo 2 regiones.

  • Aplicaciones sensibles al costo.

  • Tolerancia a los procedimientos de recuperación manual.

Características:

  • Se requiere intervención manual.

  • RPO > 0, dependiendo de la frecuencia de copia de seguridad.

  • RTO = minutos a horas.

  • Menor costo de infraestructura, se aplican costos de almacenamiento de respaldo.

Cuándo usarlo:

  • Las limitaciones geográficas o normativas impiden su implementación en múltiples regiones.

  • Las restricciones presupuestarias exigen una optimización de costes.

  • La aplicación puede tolerar tiempos de inactividad planificados para su recuperación.

Para obtener más información, consulte la Guía para la recuperación ante desastres de Atlas.

La mayoría de los entornos de producción se benefician de la combinación de ambos enfoques para proporcionar una protección integral:

  • Alta disponibilidad para fallos de infraestructura: La conmutación por error automática protege contra interrupciones de nodos, zonas, regiones o proveedores.

  • Recuperación ante desastres para problemas de integridad de datos: Las copias de seguridad protegen contra escenarios que la conmutación por error automática no puede solucionar.

Incluso con una implementación de alta disponibilidad, podría beneficiarse de los procedimientos de recuperación ante desastres para:

Corrupción o eliminación accidental de datos
La alta disponibilidad replica los datos dañados en todos los nodos. Para recuperar un estado anterior al daño o la eliminación, debe restaurar los datos a partir de copias de seguridad.
Fallos a nivel de aplicación
Errores de código o ataques maliciosos que afectan la integridad de los datos, en lugar de la infraestructura. El estado corrupto se ha replicado en todo el conjunto de réplicas.
Requisitos de cumplimiento
Muchas normativas exigen capacidades de recuperación en un momento específico y políticas de retención de copias de seguridad que van más allá de lo que proporciona la conmutación por error automática.

Este enfoque por capas proporciona una protección integral al tiempo que optimiza tanto la disponibilidad como la integridad de los datos.

Establezca objetivos de recuperación claros para guiar sus decisiones sobre arquitectura y copias de seguridad:

La cantidad máxima aceptable de pérdida de datos medida en tiempo.

Ejemplos:

  • RPO 0 =: Usar HA con majority preocupación de escritura.

  • RPO = 1 hora: Configurar instantáneas por hora.

  • RPO = 1 día: Configurar instantáneas diarias.

El tiempo máximo aceptable para restablecer el servicio después de una interrupción.

Ejemplos:

  • RTO = segundos: Utilice HA con conmutación por error automática.

  • RTO = 1 hora: Asegúrese de que los procedimientos de restauración de copias de seguridad se completen en <1 hora.

  • RTO = 4 horas: Documentar y probar los procedimientos de recuperación manual.

Su paradigma de implementación y estrategia de respaldo deben estar alineados con estos objetivos. Utilice las tablas comparativas de la Guía para la alta disponibilidad de Atlas y la Guía para la recuperación ante desastres de Atlas para evaluar las opciones.

Ponga a prueba su plan de continuidad del negocio al menos dos veces al año (se recomienda hacerlo trimestralmente). Las pruebas validan sus procedimientos y capacitan a su equipo.

Pruebas automatizadas:

Validar:

  • La conmutación por error se completa dentro del tiempo de recuperación previsto.

  • Las aplicaciones se reconectan automáticamente.

  • No se produce pérdida de datos (RPO = 0).

Pruebas de recuperación manual:

  • Practica la restauración a partir de copias de seguridad en entornos que no sean de producción.

  • Documente los tiempos de recuperación reales y compárelos con el RTO (tiempo de recuperación objetivo).

  • Verifique la integridad de los datos restaurados.

  • Pruebe las restauraciones entre regiones si utiliza una distribución de instantáneas multirregional.

Validar:

  • El equipo sigue correctamente los procedimientos documentados.

  • La recuperación se completa dentro del plazo previsto.

  • La pérdida de datos se ajusta al RPO previsto.

  • Todas las dependencias (redes, credenciales) funcionan correctamente.

Es posible que algunas pruebas requieran acciones no disponibles para los usuarios estándar. Abra un caso de soporte con al menos una semana de anticipación para programar interrupciones artificiales u otros escenarios de prueba restringidos.

Mantenga una documentación clara para su plan de continuidad del negocio:

Objetivos de recuperación:

  • RPO y RTO documentados para cada nivel de aplicación.

  • Justificación del paradigma de implementación elegido.

  • Decisiones sobre la frecuencia y la retención de las copias de seguridad.

Documentación de arquitectura:

  • Topología de despliegue (regiones, zonas, proveedores de nube).

  • Arquitectura de red y comportamiento ante fallos.

  • Topología de despliegue de la aplicación.

  • Dependencias de servicios de terceros.

Procedimientos de recuperación:

  • Procedimientos de restauración paso a paso.

  • Información de contacto del equipo de guardia.

  • Rutas de escalamiento para diferentes tipos de escenarios.

  • Enlaces a paneles de control y alertas de monitorización.

Resultados de la prueba:

  • Fechas y resultados históricos de la ejecución de pruebas.

  • Problemas detectados y estado de las medidas correctivas.

  • Modificaciones en los procedimientos basadas en las lecciones aprendidas de las pruebas.

Mantenga la documentación actualizada revisándola y actualizándola después de cada ejercicio de prueba o cambio de infraestructura.

Prepare planes de respuesta para escenarios de interrupción comunes. Para obtener información detallada sobre los procedimientos, consulte las secciones específicas de cada escenario en la Guía para la recuperación ante desastres de Atlas.

Fallo de un solo nodo:

  • Implementaciones de alta disponibilidad: conmutación por error automática, no se requiere ninguna acción.

  • Supervise la correcta conmutación por error y la restauración del nodo.

Interrupción de la zona de disponibilidad:

  • Implementaciones Multi-AZ: Conmutación por error automática, sin necesidad de realizar ninguna acción.

  • Verifique que la aplicación siga atendiendo tráfico.

Interrupción regional:

  • Implementaciones multirregionales: Conmutación automática a otra región.

  • Asegúrese de que la aplicación también esté implementada en varias regiones.

  • Verifique que los servicios de terceros sigan estando accesibles.

Interrupción del servicio del proveedor de la nube:

  • Implementaciones multinube: Conmutación automática a otro proveedor.

  • Implementaciones en una sola nube: Ejecute los procedimientos de recuperación ante desastres.

Corrupción de datos:

  • Identificar la marca de tiempo de la corrupción.

  • Restaurar desde la copia de seguridad anterior a que se produjera la corrupción.

  • Para realizar copias de seguridad continuas: utilice la restauración a un punto en el tiempo.

Eliminación accidental:

  • Identificar la marca de tiempo de eliminación.

  • Restaurar desde la copia de seguridad anterior a la eliminación.

  • Verifique la integridad de los datos restaurados.

Pérdida total del despliegue:

  • Ejecutar los procedimientos de recuperación ante desastres documentados.

  • Restaurar desde la copia de seguridad más reciente.

  • Validar la funcionalidad de la aplicación.

Fallos en el plano de control:

Para obtener información detallada sobre los procedimientos de recuperación para cada escenario, consulte la Guía para la recuperación ante desastres de Atlas.

Volver

recuperación ante desastres