Orientación para la planificación de la continuidad del negocio en Atlas

Un plan de continuidad empresarial garantiza que tus aplicaciones sigan estando disponibles y se puedan recuperar durante interrupciones. Tu plan debe combinar:

Alta disponibilidad (HA): implementa arquitecturas que se autocorrigen automáticamente cuando la infraestructura falla.
Recuperación ante desastres (DR): establecer procedimientos para recuperar manualmente cuando la conmutación automática por fallo no puede ayudar.
Pruebas: Validar regularmente tanto las capacidades de alta disponibilidad (HA) como de recuperación ante desastres (DR).
Documentación: Mantener procedimientos claros y objetivos de recuperación.

Nota

El Modelo de Responsabilidad Compartida de MongoDB Atlas define los deberes complementarios de MongoDB y sus clientes en el mantenimiento de un entorno de datos seguro y resiliente. Bajo este marco, MongoDB gestiona la seguridad y la integridad operativa de la plataforma subyacente, mientras que los clientes son responsables de la configuración, gestión y políticas de datos de sus implementaciones específicas. Para obtener un desglose detallado de la propiedad en materia de seguridad y excelencia operativa, consulta el Modelo de Responsabilidad Compartida.

Elige tu estrategia de resiliencia

Elige entre los siguientes métodos principales según tus necesidades:

Alta disponibilidad - Autocuración automática

Seleccione HA cuando necesite un tiempo de inactividad cercano a cero y pueda implementar en varias zonas de disponibilidad (AZ), regiones o proveedores de nube.

Características:

Conmutación por error automática sin intervención manual.
RPO = 0 cuando se utiliza majority nivel de confirmación de escritura (write concern).
RTO = segundos.
Mayor costo de infraestructura.

Cuándo utilizar: la mayoría de las implementaciones de producción, especialmente cuando:

Tienes usuarios en varias regiones.
Su aplicación requiere disponibilidad continua.
Puede implementar en regiones con 3+ zonas de disponibilidad.

Para obtener más información, consulta Orientación para la alta disponibilidad de Atlas y paradigmas de implementación de Atlas.

Recuperación ante desastres: recuperación manual

Elija DR cuando la ALTA DISPONIBILIDAD (HA) no sea factible o rentable, como por ejemplo:

Restricciones geográficas, como Canadá, con solo 2 regiones.
Aplicaciones sensibles al costo.
Tolerancia para los procedimientos de recuperación manual.

Características:

Se requiere intervención manual.
RPO > 0, dependiendo de la frecuencia de la copia de seguridad.
RTO = minutos a horas.
Costo de infraestructura reducido, se aplican costos de copia de seguridad.

Cuándo usar:

Las restricciones geográficas o regulatorias impiden la implementación en varias regiones.
Las limitaciones presupuestarias requieren la optimización de costos.
La aplicación puede tolerar un tiempo de inactividad planificado para la recuperación.

Para obtener más información, consulte Guía para la recuperación ante desastres de Atlas.

Combinando HA y DR

La mayoría de los entornos de producción se benefician de combinar ambos enfoques para proporcionar una protección integral:

HA para interrupciones del servicio de infraestructura: La conmutación automática por error protege contra interrupciones del servicio de nodos, zonas, regiones o proveedores.
Recuperación de Desastres para problemas de integridad de datos: Las copias de seguridad protegen contra escenarios que el conmutación automática por error no puede abordar.

Por Qué Podría Beneficiarse de DR Incluso con HA

Incluso con una implementación de alta disponibilidad, podrías beneficiarte de los procedimientos de recuperación ante desastres para:

Corrupción de datos o eliminación accidental: La alta disponibilidad replica los datos corruptos en todos los nodos. Debe restaurar desde copias de seguridad para recuperar un estado anterior a que ocurriera la corrupción o eliminación.
Errores a nivel de aplicación: Errores de código o ataques maliciosos que afectan la integridad de los datos en lugar de la infraestructura. El estado corrupto se ha replicado en todo el set de réplicas.
Requisitos de cumplimiento: Muchas normativas exigen capacidades de recuperación a un punto en el tiempo y políticas de retención de copias de seguridad que van más allá de lo que ofrece el failover automático.

Este enfoque por capas proporciona una protección integral a la vez que optimiza tanto la disponibilidad como la integridad de los datos.

Definir tus objetivos de recuperación

Establece objetivos claros de recuperación para orientar tu arquitectura y las decisiones de copia de seguridad:

Objetivo de Punto de Recuperación (RPO)

La cantidad máxima aceptable de pérdida de datos medida en el tiempo.

Ejemplos:

RPO = 0: Usa HA con un nivel de confirmación de escritura (write concern) majority.
RPO = 1 hora: configurar snapshot cada hora.
RPO = 1 día: Configurar instantáneas diarias.

Objetivo de tiempo de recuperación (RTO)

El tiempo máximo aceptable para restablecer el servicio después de una interrupción.

Ejemplos:

RTO = segundos: Utilice HA con conmutación por error automática.
RTO = 1 hora: Asegúrese de que los procedimientos de restauración de copias de seguridad se completen en menos de 1 hora.
RTO = 4 horas: Documente y pruebe los procedimientos de recuperación manual.

Su paradigma de implementación y su estrategia de copia de seguridad deben alinearse con estos objetivos. Utiliza las tablas comparativas en orientación para Atlas alta disponibilidad y orientación para Atlas recuperación ante desastres para evaluar las opciones.

Prueba tu plan regularmente

Prueba tu plan de continuidad del negocio al menos semestralmente (se recomienda trimestralmente). Las pruebas validan tus procedimientos y capacitan a tu equipo.

Prueba de conmutación por error de alta disponibilidad

Pruebas automatizadas:

Use la funcionalidad Test Primary Failover de Atlas Interfaz de Usuario.
Utiliza el endpoint de la Atlas Administration API Test Failover.
Simular interrupciones regionales para implementaciones multiregión.

validar:

La conmutación por error se completa dentro del RTO esperado.
Las aplicaciones se reconectan automáticamente.
No se produce pérdida de datos (RPO = 0).

Prueba de procedimientos de recuperación ante desastres

Pruebas de recuperación manual:

Practica restaurar desde copias de seguridad en entornos que no sean de producción.
Documenta los tiempos reales de recuperación y compáralos con el RTO.
Verifica la integridad de la restauración de datos.
Pruebe las restauraciones entre regiones si utiliza la distribución de snapshot multiregión.

validar:

El equipo sigue correctamente los procedimientos documentados.
La recuperación se completa dentro del tiempo de recuperación (RTO) esperado.
La pérdida de datos se alinea con el RPO esperado.
Todas las dependencias (redes, credenciales) funcionan correctamente.

Algunas pruebas pueden requerir acciones no disponibles para los usuarios estándar. Abra un caso de soporte con al menos una semana de anticipación para programar interrupciones del servicio artificiales u otros escenarios de prueba restringidos.

Documenta tu plan

Mantén una documentación clara de tu plan de continuidad del negocio:

Documentación requerida

Objetivos de recuperación:

RPO y RTO documentados para cada nivel de aplicación.
Justificación del paradigma de implementación elegido.
Decisiones sobre la frecuencia de copias de seguridad y retención.

Documentación de arquitectura:

Topología de implementación (regiones, zonas, proveedores de nube).
Arquitectura de red y comportamiento de conmutación por error.
Topología de implementación de la aplicación.
Dependencias de servicios de terceros.

Procedimientos de recuperación:

Procedimientos paso a paso de restauración.
Información de contacto para el equipo de guardia.
Rutas de escalado para diferentes tipos de escenarios.
Enlaces a tableros de supervisión y alertas.

Resultados de pruebas:

Fechas y resultados históricos de la ejecución de pruebas.
Problemas identificados y estado de remediación.
Cambios en los procedimientos basados en los aprendizajes de las pruebas.

Mantén la documentación actualizada revisándola y actualizándola después de cada ejercicio de prueba o cambio en la infraestructura.

Escenarios Comunes y Planes de Respuesta

Prepare planes de respuesta para escenarios comunes de interrupciones. Para obtener procedimientos detallados, consulta las secciones específicas del escenario en Guía para la recuperación ante desastres de Atlas.

Fallos de infraestructura (Escenarios de alta disponibilidad)

Interrupción del servicio de un solo nodo:

Implementaciones de alta disponibilidad: cambio automático por error, no se requiere ninguna acción.
Supervise la conmutación por error exitosa y la restauración del nodo.

Interrupción del servicio en la zona de disponibilidad:

Implementaciones Multi-AZ: cambio automático sin acción requerida.
Verifica que la aplicación siga sirviendo tráfico.

Interrupción del servicio regional:

Implementación multiregión: conmutación por error automática a otra región.
Asegúrese de que la aplicación también esté implementada en multiregión.
Verifique que los servicios de terceros sigan siendo accesibles.

Interrupción del servicio:

Implementaciones multi-nube: failover automático a otro proveedor.
Implementaciones de nube única: Ejecutar procedimientos de recuperación ante desastres.

Problemas de integridad de datos (escenarios de DR)

Corrupción de datos:

Identifica el sello de hora de corrupción.
Restaura desde una copia de seguridad antes de que ocurriera la corrupción.
Para copia de seguridad continuo: Utiliza la restauración a un punto específico del tiempo.

Eliminación accidental:

Identifique la marca de tiempo de eliminación.
Restaurar desde la copia de seguridad antes de eliminar.
Verifica la integridad de la restauración de datos.

Pérdida total de implementación:

Ejecutar los procedimientos de continuidad de negocio documentados.
Restaurar desde la copia de seguridad más reciente.
Valide la funcionalidad de la aplicación.

Errores del plano de control:

Extremadamente raro. Atlas mantiene una alta confiabilidad.
Consulte Confiabilidad de la plataforma.
Póngase en contacto con el soporte de MongoDB de inmediato.

Para conocer procedimientos detallados de recuperación para cada escenario, consulte la Guía de recuperación ante desastres de Atlas.

Volver

recuperación ante desastres

Rendimiento