Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/ /

Orientación para la recuperación ante desastres de Atlas

Es fundamental que las empresas planifiquen la recuperación ante desastres. Recomendamos encarecidamente que prepares un plan integral de recuperación ante desastres (DR) que incluya elementos como:

  • Tu objetivo de punto de recuperación designado (RPO)

  • Tu objetivo designado de tiempo de recuperación (RTO)

  • Procesos automatizados que facilitan la alineación con estos objetivos

Utiliza las recomendaciones de esta página para prepararte y responder a los desastres.

Para obtener más información sobre las configuraciones proactivas de alta disponibilidad que pueden ayudar con la recuperación ante desastres, consulte Recomendaciones para la alta disponibilidad de Atlas.

Para obtener más información sobre las características de Atlas que admiten la recuperación ante desastres, consulte las siguientes páginas en el Centro de arquitectura de Atlas:

Utiliza las siguientes recomendaciones para la recuperación ante desastres: Plan DR para su organización. Estas recomendaciones proporcionan información sobre los pasos a seguir en evento de un desastre.

Es imperativo que pruebes regularmente los planes en esta sección (idealmente cada trimestre, pero al menos cada semestre). Realizar pruebas frecuentes ayuda al equipo de gestión de base de datos Empresarial (EDM) a estar preparado para responder ante desastres, además de ayudar a mantener actualizadas las instrucciones.

Es posible que algunas pruebas de recuperación ante desastres requieran acciones que no pueden ser realizadas por los usuarios de EDM. En estos casos, abra un caso de soporte con el fin de realizar interrupciones del servicio artificiales al menos una semana antes de la fecha en que planea llevar a cabo un ejercicio de prueba.

El siguiente diagrama compara diferentes escenarios de recuperación ante desastres y configuraciones de implementación. La tabla muestra los beneficios relativos del Objetivo de Tiempo de Recuperación (RTO) y del Objetivo de Punto de Recuperación (RPO) frente a la complejidad de la implementación y el costo para cada configuración. Cabe señalar que las elecciones del set de réplicas (conmutación automática por error) no provocan pérdida de datos, mientras que la recuperación a partir de copias de seguridad podría implicar cierta pérdida de datos dependiendo de la frecuencia de la copia de seguridad. "Fallo del plano de control" se refiere a problemas con la infraestructura de gestión de Atlas, en lugar de con los nodos de datos.

Una imagen que muestra la complejidad relativa y las compensaciones RTO/RPO para diferentes configuraciones de recuperación ante desastres.
haga clic para ampliar

Figura 1. Complejidad de la configuración de recuperación ante desastres y compensaciones RTO/RPO.

Recomendaciones que se aplican solo a implementaciones en una sola región

Cada proveedor de nube en el que puedes implementar clústeres de Atlas proporciona redundancia de datos predeterminada que ayuda a mitigar cualquier interrupciones del servicio:

  • AWS almacena objetos en varios dispositivos en un mínimo de tres Zonas de Disponibilidad en una Región de AWS.

  • Microsoft Azure utiliza el almacenamiento localmente redundante (LRS), que replica tus datos tres veces dentro de un solo centro de datos en la región seleccionada.

  • Google Cloud distribuye tus datos a través de múltiples zonas en la región de copia de seguridad.

Para mejorar tu recuperación ante desastres, puedes configurar Atlas para crear copias automáticas de tus snapshots y oplogs en otras regiones. Esto garantiza que, incluso si la región primaria experimenta una Interrupción del servicio, el clúster pueda restaurar usando copias de snapshots almacenadas en otras regiones.

Atlas optimiza las velocidades de restauración seleccionando la opción más eficiente en función de la disponibilidad regional, empleando copias de snapshots si se está restaurando en una región donde ya existen dichas copias. Además, si la snapshot original no está disponible debido a una Interrupción del servicio regional, Atlas realizará la restauración utilizando la copia de snapshot disponible más cercana, minimizando el tiempo de inactividad y mejorando la resiliencia de la recuperación. Para aprender más, consulta Exportar snapshot de copias de seguridad en la nube.

Recomendaciones que se aplican únicamente a implementaciones a través de múltiples regiones o de múltiples proveedores de nube

Las implementaciones multirregionales y multicloud proporcionan capacidades mejoradas de recuperación ante desastres al distribuir los nodos de tu clúster en diferentes ubicaciones geográficas o proveedores en la nube. Esta distribución ayuda a garantizar que, si una región o proveedor de nube experimenta una Interrupción del servicio, tu aplicación pueda seguir funcionando utilizando nodos en ubicaciones no afectadas.

Cuando configuras implementaciones en multiregión o en multi-nube, asegúrate de que tu estrategia de copia de seguridad tenga en cuenta la naturaleza distribuida de tu implementación, incluyendo la configuración de períodos adecuados de retención de copias de seguridad basados en tus requisitos específicos de recuperación.

Las siguientes recomendaciones se aplican a todos los paradigmas de implementación.

Esta sección cubre los siguientes procedimientos de recuperación ante desastres:

Si un solo nodo en su conjunto de réplicas falla debido a una interrupción regional parcial, su implementación debería seguir estando disponible, suponiendo que haya seguido las mejores prácticas. Si está leyendo desde secundarios, podría experimentar un rendimiento degradado o posibles interrupciones del servicio en el evento de que un secundario falle, debido a la mayor carga en el clúster que queda sub-provisionado.

Puede probar una interrupción del nodo principal en Atlas mediante la función Probar conmutación por error principal de la interfaz de usuario de Atlas o el punto final de la API de administración de Atlas de Probar conmutación por error.

En caso de una interrupción regional, los clústeres multirregionales realizarán automáticamente una elección e identificarán un nuevo nodo principal si es necesario. Este cambio de topología se comunicará automáticamente a la aplicación, lo que le permitirá tomar las medidas correctivas necesarias. Para mantener la disponibilidad de la aplicación en caso de una interrupción regional, esta también debe implementarse con una topología multirregional. Este requisito se extiende a cualquier servicio de terceros con el que se integre la aplicación. Para obtener más información, consulte el Paradigma de Implementación Multirregional.

Si una interrupción en una sola región o en varias regiones degrada el estado de su clúster, siga estos pasos:

1
2

Puedes encontrar información sobre la salud del clúster en la Overview pestaña de la Interfaz de Usuario de Atlas.

3

Determina cuántos nodos nuevos se requieren para restaurar el set de réplicas a un estado normal en función de la cantidad de nodos que queden en línea.

Un estado normal es aquel en el que la mayoría de los nodos están disponibles.

4

Dependiendo de la causa de la interrupción, es posible que próximamente otras regiones también experimenten interrupciones no programadas. Por ejemplo, si las interrupciones se debieron a un desastre natural en la costa este de Estados Unidos, debería evitar estas regiones por si surgen problemas adicionales.

5

Agregue la cantidad necesaria de nodos para un estado normal en regiones que probablemente no se vean afectadas por la causa de la Interrupción del servicio.

Para reconfigurar un conjunto de réplicas durante una interrupción agregando regiones o nodos, consulte Reconfigurar un conjunto de réplicas durante una interrupción regional.

6

Además de agregar nodos para restaurar tu set de réplicas a un estado normal, puedes agregar nodos adicionales para igualar la topología de tu set de réplicas antes del desastre.

se puede probar una interrupción del servicio de región en Atlas utilizando la funcionalidad Simular Interrupción del servicio de la Interfaz de Usuario de Atlas o el endpoint de la API de administración de Atlas Iniciar una simulación de Interrupción del servicio.

Con clústeres multinube, puede seleccionar nodos seleccionables entre proveedores de nube para mantener una alta disponibilidad. Si el proveedor donde está implementado su nodo principal deja de estar disponible, Atlas selecciona automáticamente nuevos nodos principales para garantizar la continuidad del funcionamiento. Por ejemplo, puede crear nodos seleccionables en AWS, Google Cloud y Microsoft Azure para garantizar que, si un proveedor de nube sufre una interrupción, un nodo seleccionable de otro proveedor pueda asumir automáticamente el control como nodo principal de su clúster. Para obtener más información, consulte Paradigma de Implementación Multinube.

La mayoría de los clústeres Atlas multirregionales se recuperan automáticamente de una interrupción en una sola región. Para obtener más información, consulte la sección Alta disponibilidad y la página Implementación multirregional. En caso de que las interrupciones regionales hayan afectado a la mayoría de los nodos, debe determinar cuántos nodos más necesita agregar para que la mayoría de los nodos funcionen correctamente.

En el muy improbable evento de que un proveedor de nube completo no esté disponible, sigue estos pasos para restaurar tu implementación en linea:

1

Necesitará esta información más adelante en este procedimiento para restaurar su implementación.

2

Para obtener una lista de proveedores de nube e información, consulta Proveedores de nube.

3

Para saber cómo ver sus instantáneas de respaldo, consulte Ver10instantáneas de respaldo M +.

4

Tu nuevo clúster debe tener una topología idéntica al clúster original.

Alternativamente, en lugar de crear un clúster completamente nuevo, también puedes agregar nuevos nodos alojados por un proveedor de nube alternativo al clúster existente.

5

Para aprender a restaurar tu snapshot, consulta Restaurar tu clúster.

6

Para encontrar la nueva cadena de conexión,consulte Conectarse mediante bibliotecas de cliente. Revise la pila de aplicaciones, ya que probablemente necesite volver a implementarla en el nuevo proveedor de nube.

En el evento altamente improbable de que el plano de control de Atlas y la Interfaz de Usuario de Atlas no estén disponibles, tu clúster seguirá estando disponible y accesible. Para aprender más, consulta Fiabilidad de la plataforma. Abre un ticket de soporte de alta prioridad para investigar esto más a fondo.

Los problemas de capacidad de recursos computacionales (como espacio en disco, RAM o CPU) pueden deberse a una mala planificación o a tráfico inesperado en la base de datos. Este comportamiento podría no ser el resultado de un desastre.

Si un recurso computacional alcanza la cantidad máxima asignada y causa un desastre, siga estos pasos:

1

Para ver la utilización de sus recursos en la interfaz de usuario de Atlas, consulte Supervisar el rendimiento en tiempo real.

Para ver las métricas con la API de administración de Atlas, consulta Supervisión y registros.

2
3

Ten en cuenta que Atlas realizará este cambio de forma paulatina, por lo que no debería tener ningún impacto importante en tus aplicaciones.

Para aprender a asignar más recursos, consulta Edita un clúster.

4

Importante

Esta es una solución temporal destinada a acortar el tiempo de inactividad general del sistema. Una vez que el problema subyacente se resuelva, fusione los datos del clúster recién creado en el clúster original y dirija todas las aplicaciones de nuevo al clúster original.

Si un recurso computacional falla y causa que el clúster se vuelva inaccesible, sigue estos pasos:

1
2
3

Para aprender a restaurar tu snapshot, consulta Restaurar tu clúster.

4

Los datos de producción podrían eliminarse accidentalmente debido a un error humano o a un fallo en la aplicación basada en la base de datos. Si el clúster se eliminara accidentalmente, Atlas podría conservar el volumen temporalmente.

Si el contenido de una colección o base de datos ha sido eliminado, sigue estos pasos para restaurar tus datos:

1
2

Puede utilizar mongoexport para crear una copia.

3

Si la eliminación ocurrió en las últimas 72 horas y configuraste la copia de seguridad continua, utiliza la restauración Point-in-Time (PIT) para restaurar desde el punto en el tiempo justo antes de que ocurriera la eliminación.

Si la eliminación no ocurrió en las últimas 72 horas, restaurar la copia de seguridad más reciente de antes de que ocurriera la eliminación en el clúster.

Para obtener más información, consulta Restaurar tu clúster.

4

Puedes usar mongoimport con modo inserción para importar tus datos y asegurarte de que cualquier dato modificado o agregado se refleje correctamente en la colección o base de datos.

Si un controlador falla, siga estos pasos:

1

Durante este paso, puedes trabajar con el equipo de soporte técnico.

Determina si el problema está relacionado con una versión anticuada del controlador o con una versión recientemente actualizada.

2
  • Si está utilizando un controlador obsoleto, compruebe si la actualización a una versión más reciente resuelve el problema. La mayoría de los problemas de los controladores se solucionan en versiones más recientes.

  • Si has actualizado recientemente tu driver y sospechas que la nueva versión introdujo el problema, considera volver a la versión anterior que funcionaba.

3

Esto podría incluir código de aplicación o cambios en la query. Por ejemplo, pueden producirse cambios disruptivos si se cambia entre versiones principales, o nuevas funcionalidades disponibles si se actualiza.

4
5

Asegúrese de que cualquier otro cambio de la acción anterior se refleje en el entorno de producción.

Importante

Esta es una solución temporal destinada a acortar el tiempo de inactividad general del sistema. Una vez que el problema subyacente se resuelva, fusione los datos del clúster recién creado en el clúster original y dirija todas las aplicaciones de nuevo al clúster original.

Si sus datos subyacentes se corrompen, siga estos pasos:

1
2
3

Para aprender a restaurar tu snapshot, consulta Restaurar tu clúster.

4
5

Volver

Copias de seguridad

En esta página