Orientación para la recuperación ante desastres de Atlas

Es fundamental que las empresas planifiquen la recuperación ante desastres. Recomendamos encarecidamente que prepares un plan integral de recuperación ante desastres (DR) que incluya elementos como:

Tu objetivo de punto de recuperación designado (RPO)
Tu objetivo designado de tiempo de recuperación (RTO)
Procesos automatizados que facilitan la alineación con estos objetivos

Utiliza las recomendaciones de esta página para prepararte y responder a los desastres.

Para obtener más información sobre las configuraciones proactivas de alta disponibilidad que pueden ayudar con la recuperación ante desastres, consulte Recomendaciones para la alta disponibilidad de Atlas.

Funcionalidades para la recuperación ante desastres de Atlas

Para obtener más información sobre las características de Atlas que admiten la recuperación ante desastres, consulte las siguientes páginas en el Centro de arquitectura de Atlas:

Recomendaciones para la recuperación ante desastres de Atlas

Utiliza las siguientes recomendaciones para la recuperación ante desastres: Plan DR para su organización. Estas recomendaciones proporcionan información sobre los pasos a seguir en evento de un desastre.

Es imperativo que pruebes regularmente los planes en esta sección (idealmente cada trimestre, pero al menos cada semestre). Realizar pruebas frecuentes ayuda al equipo de gestión de base de datos Empresarial (EDM) a estar preparado para responder ante desastres, además de ayudar a mantener actualizadas las instrucciones.

Es posible que algunas pruebas de recuperación ante desastres requieran acciones que no pueden ser realizadas por los usuarios de EDM. En estos casos, abra un caso de soporte con el fin de realizar interrupciones del servicio artificiales al menos una semana antes de la fecha en que planea llevar a cabo un ejercicio de prueba.

El siguiente diagrama compara diferentes escenarios de recuperación ante desastres y configuraciones de implementación. La tabla muestra los beneficios relativos del Objetivo de Tiempo de Recuperación (RTO) y del Objetivo de Punto de Recuperación (RPO) frente a la complejidad de la implementación y el costo para cada configuración. Cabe señalar que las elecciones del set de réplicas (conmutación automática por error) no provocan pérdida de datos, mientras que la recuperación a partir de copias de seguridad podría implicar cierta pérdida de datos dependiendo de la frecuencia de la copia de seguridad. "Fallo del plano de control" se refiere a problemas con la infraestructura de gestión de Atlas, en lugar de con los nodos de datos.

Una imagen que muestra la complejidad relativa y las compensaciones RTO/RPO para diferentes configuraciones de recuperación ante desastres.

haga clic para ampliar

Figura 1. Complejidad de la configuración de recuperación ante desastres y compensaciones RTO/RPO.

Recomendaciones para la implementación en una sola región

Recomendaciones que se aplican solo a implementaciones en una sola región

Cada proveedor de nube en el que puedes implementar clústeres de Atlas proporciona redundancia de datos predeterminada que ayuda a mitigar cualquier interrupciones del servicio:

AWS almacena objetos en varios dispositivos en un mínimo de tres Zonas de Disponibilidad en una Región de AWS.
Microsoft Azure utiliza el almacenamiento localmente redundante (LRS), que replica tus datos tres veces dentro de un solo centro de datos en la región seleccionada.
Google Cloud distribuye tus datos a través de múltiples zonas en la región de copia de seguridad.

Para mejorar tu recuperación ante desastres, puedes configurar Atlas para crear copias automáticas de tus snapshots y oplogs en otras regiones. Esto garantiza que, incluso si la región primaria experimenta una Interrupción del servicio, el clúster pueda restaurar usando copias de snapshots almacenadas en otras regiones.

Atlas optimiza las velocidades de restauración seleccionando la opción más eficiente en función de la disponibilidad regional, empleando copias de snapshots si se está restaurando en una región donde ya existen dichas copias. Además, si la snapshot original no está disponible debido a una Interrupción del servicio regional, Atlas realizará la restauración utilizando la copia de snapshot disponible más cercana, minimizando el tiempo de inactividad y mejorando la resiliencia de la recuperación. Para aprender más, consulta Exportar snapshot de copias de seguridad en la nube.

Recomendaciones de implementación multi-región y multi-nube

Recomendaciones que se aplican únicamente a implementaciones a través de múltiples regiones o de múltiples proveedores de nube

Las implementaciones multirregionales y multicloud proporcionan capacidades mejoradas de recuperación ante desastres al distribuir los nodos de tu clúster en diferentes ubicaciones geográficas o proveedores en la nube. Esta distribución ayuda a garantizar que, si una región o proveedor de nube experimenta una Interrupción del servicio, tu aplicación pueda seguir funcionando utilizando nodos en ubicaciones no afectadas.

Cuando configuras implementaciones en multiregión o en multi-nube, asegúrate de que tu estrategia de copia de seguridad tenga en cuenta la naturaleza distribuida de tu implementación, incluyendo la configuración de períodos adecuados de retención de copias de seguridad basados en tus requisitos específicos de recuperación.

Todas las recomendaciones paradigmáticas de implementación

Las siguientes recomendaciones se aplican a todos los paradigmas de implementación.

Esta sección cubre los siguientes procedimientos de recuperación ante desastres:

Interrupción del servicio de Nodo Único
Interrupción del servicio regional
Interrupción del proveedor de la nube
Interrupción del servicio de Atlas
Problemas de capacidad de recursos
Fallo de recurso
Eliminación de datos de producción
Error del controlador
Corrupción de datos

Interrupción del servicio de Nodo Único

Si un solo nodo en su conjunto de réplicas falla debido a una interrupción regional parcial, su implementación debería seguir estando disponible, suponiendo que haya seguido las mejores prácticas. Si está leyendo desde secundarios, podría experimentar un rendimiento degradado o posibles interrupciones del servicio en el evento de que un secundario falle, debido a la mayor carga en el clúster que queda sub-provisionado.

Puede probar una interrupción del nodo principal en Atlas mediante la función Probar conmutación por error principal de la interfaz de usuario de Atlas o el punto final de la API de administración de Atlas de Probar conmutación por error.

Interrupción del servicio regional

En caso de una interrupción regional, los clústeres multirregionales realizarán automáticamente una elección e identificarán un nuevo nodo principal si es necesario. Este cambio de topología se comunicará automáticamente a la aplicación, lo que le permitirá tomar las medidas correctivas necesarias. Para mantener la disponibilidad de la aplicación en caso de una interrupción regional, esta también debe implementarse con una topología multirregional. Este requisito se extiende a cualquier servicio de terceros con el que se integre la aplicación. Para obtener más información, consulte el Paradigma de Implementación Multirregional.

Si una interrupción en una sola región o en varias regiones degrada el estado de su clúster, siga estos pasos:

Identificar la región que experimenta problemas

Identificar cuántos nodos siguen en línea

Puedes encontrar información sobre la salud del clúster en la Overview pestaña de la Interfaz de Usuario de Atlas.

Determina cuántos nodos necesitas

Determina cuántos nodos nuevos se requieren para restaurar el set de réplicas a un estado normal en función de la cantidad de nodos que queden en línea.

Un estado normal es aquel en el que la mayoría de los nodos están disponibles.

Determinar qué regiones es poco probable que se vean afectadas por la Interrupción del servicio actual

Dependiendo de la causa de la interrupción, es posible que próximamente otras regiones también experimenten interrupciones no programadas. Por ejemplo, si las interrupciones se debieron a un desastre natural en la costa este de Estados Unidos, debería evitar estas regiones por si surgen problemas adicionales.

Añade nodos a las regiones que identificaste

Agregue la cantidad necesaria de nodos para un estado normal en regiones que probablemente no se vean afectadas por la causa de la Interrupción del servicio.

Para reconfigurar un conjunto de réplicas durante una interrupción agregando regiones o nodos, consulte Reconfigurar un conjunto de réplicas durante una interrupción regional.

(Opcional) agregar nodos adicionales

Además de agregar nodos para restaurar tu set de réplicas a un estado normal, puedes agregar nodos adicionales para igualar la topología de tu set de réplicas antes del desastre.

se puede probar una interrupción del servicio de región en Atlas utilizando la funcionalidad Simular Interrupción del servicio de la Interfaz de Usuario de Atlas o el endpoint de la API de administración de Atlas Iniciar una simulación de Interrupción del servicio.

Interrupción del proveedor de la nube

Con clústeres multinube, puede seleccionar nodos seleccionables entre proveedores de nube para mantener una alta disponibilidad. Si el proveedor donde está implementado su nodo principal deja de estar disponible, Atlas selecciona automáticamente nuevos nodos principales para garantizar la continuidad del funcionamiento. Por ejemplo, puede crear nodos seleccionables en AWS, Google Cloud y Microsoft Azure para garantizar que, si un proveedor de nube sufre una interrupción, un nodo seleccionable de otro proveedor pueda asumir automáticamente el control como nodo principal de su clúster. Para obtener más información, consulte Paradigma de Implementación Multinube.

La mayoría de los clústeres Atlas multirregionales se recuperan automáticamente de una interrupción en una sola región. Para obtener más información, consulte la sección Alta disponibilidad y la página Implementación multirregional. En caso de que las interrupciones regionales hayan afectado a la mayoría de los nodos, debe determinar cuántos nodos más necesita agregar para que la mayoría de los nodos funcionen correctamente.

En el muy improbable evento de que un proveedor de nube completo no esté disponible, sigue estos pasos para restaurar tu implementación en linea:

Determina cuándo comenzó la interrupción del servicio del proveedor de nube

Necesitará esta información más adelante en este procedimiento para restaurar su implementación.

Identifique el proveedor de nube alternativo en el que desea implementar su nuevo clúster

Para obtener una lista de proveedores de nube e información, consulta Proveedores de nube.

Si almacena copias de seguridad en varios proveedores de la nube, como una interrupción del servicio del proveedor de la nube implica que cualquier copia de seguridad almacenada en el proveedor de nube primario es necesariamente inaccesible, encuentre la snapshot más reciente disponible tomada del clúster antes de que comenzara la interrupción del servicio

Para saber cómo ver sus instantáneas de respaldo, consulte Ver10instantáneas de respaldo M +.

Crear un nuevo clúster con el proveedor de nube alternativo

Tu nuevo clúster debe tener una topología idéntica al clúster original.

Alternativamente, en lugar de crear un clúster completamente nuevo, también puedes agregar nuevos nodos alojados por un proveedor de nube alternativo al clúster existente.

Restaura la snapshot más reciente del paso anterior en el nuevo clúster

Para aprender a restaurar tu snapshot, consulta Restaurar tu clúster.

Transfiere cualquier aplicación que se conecte al clúster antiguo al clúster recién creado

Para encontrar la nueva cadena de conexión,consulte Conectarse mediante bibliotecas de cliente. Revise la pila de aplicaciones, ya que probablemente necesite volver a implementarla en el nuevo proveedor de nube.

Interrupción del servicio de Atlas

En el evento altamente improbable de que el plano de control de Atlas y la Interfaz de Usuario de Atlas no estén disponibles, tu clúster seguirá estando disponible y accesible. Para aprender más, consulta Fiabilidad de la plataforma. Abre un ticket de soporte de alta prioridad para investigar esto más a fondo.

Problemas de capacidad de recursos

Los problemas de capacidad de recursos computacionales (como espacio en disco, RAM o CPU) pueden deberse a una mala planificación o a tráfico inesperado en la base de datos. Este comportamiento podría no ser el resultado de un desastre.

Si un recurso computacional alcanza la cantidad máxima asignada y causa un desastre, siga estos pasos:

Identifique qué recurso computacional está maximizado mediante el Panel de rendimiento en tiempo real o las métricas Atlas

Para ver la utilización de sus recursos en la interfaz de usuario de Atlas, consulte Supervisar el rendimiento en tiempo real.

Para ver las métricas con la API de administración de Atlas, consulta Supervisión y registros.

Determine cuánto más del recurso maximizado necesita para aliviar los problemas de rendimiento

Asignar los recursos necesarios

Ten en cuenta que Atlas realizará este cambio de forma paulatina, por lo que no debería tener ningún impacto importante en tus aplicaciones.

Para aprender a asignar más recursos, consulta Edita un clúster.

Supervise su clúster para determinar si existen otros problemas después del cambio

Fallo de recurso

Importante

Esta es una solución temporal destinada a acortar el tiempo de inactividad general del sistema. Una vez que el problema subyacente se resuelva, fusione los datos del clúster recién creado en el clúster original y dirija todas las aplicaciones de nuevo al clúster original.

Si un recurso computacional falla y causa que el clúster se vuelva inaccesible, sigue estos pasos:

Abre un ticket de soportede alta prioridad

Cree un nuevo clúster con la misma topología que el clúster que falla

Restaura la copia de seguridad más reciente en el clúster recién creado

Para aprender a restaurar tu snapshot, consulta Restaurar tu clúster.

Dirige todas las aplicaciones que usan el clúster fallido hacia el clúster recién creado

Eliminación de datos de producción

Los datos de producción podrían eliminarse accidentalmente debido a un error humano o a un fallo en la aplicación basada en la base de datos. Si el clúster se eliminara accidentalmente, Atlas podría conservar el volumen temporalmente.

Si el contenido de una colección o base de datos ha sido eliminado, sigue estos pasos para restaurar tus datos:

Determina la fecha y hora o la marca de tiempo de oplog cuando se borró el dato

Cree una copia del estado actual de la colección o base de datos, si contiene algún dato

Puede utilizar mongoexport para crear una copia.

Restaurar sus datos

Si la eliminación ocurrió en las últimas 72 horas y configuraste la copia de seguridad continua, utiliza la restauración Point-in-Time (PIT) para restaurar desde el punto en el tiempo justo antes de que ocurriera la eliminación.

Si la eliminación no ocurrió en las últimas 72 horas, restaurar la copia de seguridad más reciente de antes de que ocurriera la eliminación en el clúster.

Para obtener más información, consulta Restaurar tu clúster.

Si creaste una copia de tus datos, importa los nuevos datos que exportaste

Puedes usar mongoimport con modo inserción para importar tus datos y asegurarte de que cualquier dato modificado o agregado se refleje correctamente en la colección o base de datos.

Error del controlador

Si un controlador falla, siga estos pasos:

Determine el problema

Durante este paso, puedes trabajar con el equipo de soporte técnico.

Determina si el problema está relacionado con una versión anticuada del controlador o con una versión recientemente actualizada.

Identifique la versión de controlador adecuada para resolver el problema

Si está utilizando un controlador obsoleto, compruebe si la actualización a una versión más reciente resuelve el problema. La mayoría de los problemas de los controladores se solucionan en versiones más recientes.
Si has actualizado recientemente tu driver y sospechas que la nueva versión introdujo el problema, considera volver a la versión anterior que funcionaba.

Evalúa si se requieren otros cambios para migrar a la versión de controlador objetivo

Esto podría incluir código de aplicación o cambios en la query. Por ejemplo, pueden producirse cambios disruptivos si se cambia entre versiones principales, o nuevas funcionalidades disponibles si se actualiza.

Pruebe los cambios en un entorno que no sea de producción

Si no encuentras problemas durante la prueba, implementa la nueva versión del driver

Asegúrese de que cualquier otro cambio de la acción anterior se refleje en el entorno de producción.

Corrupción de datos

Importante

Si sus datos subyacentes se corrompen, siga estos pasos:

Abre un ticket de soportede alta prioridad

Cree un nuevo clúster con la misma topología que el clúster que falla

Restaura la copia de seguridad más reciente en el clúster recién creado

Para aprender a restaurar tu snapshot, consulta Restaurar tu clúster.

Verifica los datos de restauración para confirmar que la corrupción no existe

Dirige todas las aplicaciones que usan el clúster fallido hacia el clúster recién creado

Volver

Copias de seguridad

Rendimiento