Las operaciones de copia de seguridad y restauración de las implementaciones gestionadas por Ops Manager pueden fallar por diversos motivos, como problemas de conectividad del agente, limitaciones de espacio en disco o inconsistencias en el registro de operaciones (oplog).
Esta página describe cómo confirmar los fallos de copia de seguridad y restauración, describe las causas y soluciones comunes y proporciona orientación sobre qué información recopilar antes de ponerse en contacto con el soporte técnico. Si el problema persiste después de completar los pasos que se indican a continuación, póngase en contacto con el soporte técnico. Apoyo técnico.
Comprobaciones de requisitos previos
Antes de investigar la causa raíz de un fallo en la copia de seguridad o la restauración, confirme que se ha producido un fallo comprobando los indicadores de estado pertinentes en la interfaz de usuario o la API de Ops Manager.
Comprobar si hay fallos en la copia de seguridad
Utilice los siguientes métodos para confirmar que una tarea de copia de seguridad o una instantánea ha fallado.
Comprobar el estado de la instantánea
Para confirmar si falló una instantánea:
También puede hacer clic en JSON junto a una instantánea para ver campos adicionales, entre ellos:
statuscreatedDatecompletedDatetotalDurationtransferSpeed
Estos campos ayudan a confirmar si la copia de seguridad se completó correctamente.
Para obtener una descripción de todos los estados de instantánea, consulte Resumen de la copia de seguridad.
Consulta la página de trabajos de copia de seguridad.
Para comprobar si hay problemas con las tareas de copia de seguridad en curso:
Para obtener más información, consulte la sección de Empleo.
Comprobar los registros de copia de seguridad
Para revisar los mensajes de error de las tareas de copia de seguridad:
Los registros muestran mensajes de error agrupados por fecha y hora, lo que puede ayudar a diagnosticar por qué falló una tarea de copia de seguridad.
Consultar alertas
Ops Manager genera alertas que indican fallos o problemas con las tareas de copia de seguridad, entre los que se incluyen:
"La copia de seguridad ha alcanzado un número elevado de reintentos".
"La copia de seguridad se encuentra en un estado inesperado".
"El conjunto de réplicas tiene una instantánea tardía"
Para obtener una lista completa de las condiciones de alerta relacionadas con las copias de seguridad, consulte Condiciones de alerta.
Consulta la API para obtener instantáneas incompletas.
Para recuperar instantáneas que no se hayan completado, consulte la API de Ops Manager utilizando el parámetro de consulta completed=false:
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"
La respuesta incluye una matriz results donde cada objeto representa una instantánea. El campo complete indica si la instantánea se completó correctamente.
Nota
La API de instantáneas no proporciona un estado de error con nombre. Una instantánea con complete: false puede estar aún en curso o haber fallado.
Para obtener más información,consulte Obtener todas las instantáneas de un clúster.
Comprobar si hay fallos de restauración
Utilice los siguientes métodos para confirmar que una tarea de restauración ha fallado.
Consulta la página de restauraciones.
Para ver el estado de los trabajos de restauración en la interfaz de usuario de Ops Manager:
La página Restores muestra una tabla con los últimos 300 trabajos de restauración. Consulte la columna Status para identificar los trabajos con los siguientes estados:
FAILEDCANCELEDIN_PROGRESSFINISHED
Haz clic en una fila para ver más detalles sobre esa operación de restauración específica.
Para obtener más información, consulte Restauraciones.
Consulta la API para ver los trabajos de restauración fallidos.
Para recuperar trabajos de restauración mediante programación, consulte la API de Ops Manager:
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"
La respuesta incluye una matriz results donde cada objeto representa un trabajo de restauración. El campo statusName indica el estado del trabajo. Los valores posibles incluyen:
FINISHEDIN_PROGRESSBROKENKILLED
Los trabajos de restauración con un statusName de BROKEN o KILLED se consideran fallidos.
Para filtrar los trabajos fallidos usando jq:
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \ | jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'
Para obtener más información, consulte Obtener todos los trabajos de restauración para un clúster.
Problemas comunes y sus soluciones
Las siguientes secciones describen las causas comunes de fallos en las copias de seguridad y la restauración, y cómo solucionarlos.
Fallos en las copias de seguridad
Las siguientes secciones describen las causas comunes de fallos en las copias de seguridad y cómo solucionarlos.
Espacio en disco insuficiente
La falta de espacio libre en disco en los nodos miembros del conjunto de réplicas puede provocar que el clúster entre en un estado inestable, lo que conlleva fallos en las copias de seguridad.
Para solucionar este problema, aumente la capacidad de almacenamiento disponible en el nodo dbPath de los nodos afectados. Supervise el uso del disco periódicamente para evitar que vuelva a ocurrir.
El agente de MongoDB está caído o inestable.
El proceso de copia de seguridad depende de que el agente de MongoDB se ejecute de forma continua. Si el agente se detiene o se reinicia constantemente, las copias de seguridad fallan.
Los síntomas incluyen:
Alertas como "El oplog de copia de seguridad está retrasado".
No se han recibido fragmentos de oplog durante una hora.
Para resolver este problema:
Para obtener más información,consulte la sección "Solucionar problemas con el registro de operaciones de copia de seguridad".
El agente no puede acceder al conjunto de réplicas.
El agente de copia de seguridad debe mantener una conexión con el conjunto de réplicas. Pueden producirse fallos debido a problemas de conectividad de red, a un nodo de MongoDB no disponible o a un fallo de autenticación.
Los síntomas que aparecen en los registros del agente incluyen:
server selection timeoutAuthentication failed
Para resolver este problema:
Para obtener más información,consulte la sección "Solucionar problemas con el registro de operaciones de copia de seguridad".
Problemas con Oplog
Si el archivo oplog es demasiado pequeño o el agente de copia de seguridad no puede seguir el ritmo de la actividad de escritura, la copia de seguridad se retrasa y, finalmente, falla.
Los síntomas incluyen las siguientes alertas:
"La copia de seguridad requiere una resincronización".
"El registro de operaciones de respaldo está retrasado".
Para resolver este problema:
Aumente el tamaño del oplog para que la ventana del oplog cubra suficiente historial (se recomienda un mínimo de 24 horas).
Si la copia de seguridad se ha quedado demasiado desactualizada, vuelva a sincronizarla.
La tarea de copia de seguridad no se puede vincular a un demonio de copia de seguridad.
Una tarea de copia de seguridad requiere un demonio de copia de seguridad con espacio suficiente para almacenar una copia local del conjunto de réplicas respaldado. Si ningún demonio tiene espacio suficiente, la tarea no se puede vincular. Para solucionar este problema, agregue un demonio de copia de seguridad adicional para aumentar la capacidad.
Este problema también puede ocurrir cuando no se detecta un nodo primario en el conjunto de réplicas. Para solucionarlo, asegúrese de que el conjunto de réplicas esté en buen estado y tenga un nodo primario antes de volver a intentar la copia de seguridad.
Para obtener más información,consulte las preguntas frecuentes sobre copias de seguridad.
Restaurar fallos
Las siguientes secciones describen las causas comunes de los fallos de restauración y cómo solucionarlos.
Intentando restaurar un único fragmento en un clúster fragmentado.
Al restaurar un clúster fragmentado, debe restaurar todos los fragmentos. El proceso de restauración fallará si intenta restaurar un único fragmento de forma aislada.
Para obtener más información, consulte la sección Restaurar limitaciones.
Configuración incompatible entre la base de datos de copia de seguridad y la base de datos de destino.
Una restauración automatizada puede fallar si ciertos ajustes de almacenamiento de la copia de seguridad de origen y la base de datos de destino no coinciden. Si falla un intento de restauración, Ops Manager mostrará los ajustes que no coincidan.
Para obtener una lista de los ajustes que deben coincidir, consulte la sección "Posibles causas de fallos en la restauración automática".
Lagunas en el registro de operaciones durante la restauración a un punto en el tiempo
Las restauraciones a un punto específico en el tiempo requieren un historial continuo del oplog. Si hay una interrupción en el oplog, la restauración falla.
Las causas comunes de las lagunas en el registro de operaciones incluyen:
El agente de respaldo dejó de monitorizar el oplog.
El registro de operaciones se sobrescribió antes de que el agente lo procesara.
Se produjeron cambios en la topología del clúster.
Se ha producido un cambio en la versión de compatibilidad de funciones (FCV).
Se intentó realizar una restauración tras varios cambios de versión de MongoDB.
Para resolver este problema:
Restaurar desde la última instantánea válida tomada antes de la brecha del oplog, o
Espere hasta que se cree una nueva instantánea y, a continuación, realice la restauración de nuevo.
Para obtener más información,consulte Restaurar desde un punto específico en el tiempo.
Espacio en disco insuficiente en el servidor de restauración.
Si el host de destino no tiene suficiente espacio de almacenamiento para los archivos de instantánea y la base de datos restaurada, la restauración fallará.
Para resolver este problema:
Para obtener más información sobre el dbStats comando,dbStats consulte.
Diagnósticos para recopilar para obtener más apoyo
Si el problema persiste, recopile la siguiente información antes de ponerse en contacto con el soporte técnico:
Mensajes de error completos de la interfaz de usuario o la API de Ops Manager
Archivos de registro del agente de copia de seguridad
Versión del servidor MongoDB
Versión de Ops Manager
Registros relevantes del servidor MongoDB
Salida de la página de restauraciones o consulta de trabajo de restauración de la API