Make the MongoDB docs better! We value your opinion. Share your feedback for a chance to win $100.
Click here >
Docs Menu
Docs Home
/ /

Solución de problemas de copias de seguridad y restauración

Las operaciones de copia de seguridad y restauración de las implementaciones gestionadas por Ops Manager pueden fallar por diversos motivos, como problemas de conectividad del agente, limitaciones de espacio en disco o inconsistencias en el registro de operaciones (oplog).

Esta página describe cómo confirmar los fallos de copia de seguridad y restauración, describe las causas y soluciones comunes y proporciona orientación sobre qué información recopilar antes de ponerse en contacto con el soporte técnico. Si el problema persiste después de completar los pasos que se indican a continuación, póngase en contacto con el soporte técnico. Apoyo técnico.

Antes de investigar la causa raíz de un fallo en la copia de seguridad o la restauración, confirme que se ha producido un fallo comprobando los indicadores de estado pertinentes en la interfaz de usuario o la API de Ops Manager.

Utilice los siguientes métodos para confirmar que una tarea de copia de seguridad o una instantánea ha fallado.

Para confirmar si falló una instantánea:

1
  1. Haga clic Admin.

  2. Haga clic en Backups.

  3. Haga clic en Snapshots.

2
3

La columna indica si la instantánea se realizó correctamente, si está en ejecución o si falló.

También puede hacer clic en JSON junto a una instantánea para ver campos adicionales, entre ellos:

  • status

  • createdDate

  • completedDate

  • totalDuration

  • transferSpeed

Estos campos ayudan a confirmar si la copia de seguridad se completó correctamente.

Para obtener una descripción de todos los estados de instantánea, consulte Resumen de la copia de seguridad.

Para comprobar si hay problemas con las tareas de copia de seguridad en curso:

1
  1. Haga clic en Admin.

  2. Haga clic en Backup.

  3. Haga clic en Jobs.

2
3

Los campos como Last Snapshot, Last Oplog o Head Time pueden aparecer resaltados cuando se retrasan, lo que indica un problema con el proceso de copia de seguridad.

Para obtener más información, consulte la sección de Empleo.

Para revisar los mensajes de error de las tareas de copia de seguridad:

1
  1. Haga clic en Admin.

  2. Haga clic en Logs.

2

Los registros muestran mensajes de error agrupados por fecha y hora, lo que puede ayudar a diagnosticar por qué falló una tarea de copia de seguridad.

Ops Manager genera alertas que indican fallos o problemas con las tareas de copia de seguridad, entre los que se incluyen:

  • "La copia de seguridad ha alcanzado un número elevado de reintentos".

  • "La copia de seguridad se encuentra en un estado inesperado".

  • "El conjunto de réplicas tiene una instantánea tardía"

Para obtener una lista completa de las condiciones de alerta relacionadas con las copias de seguridad, consulte Condiciones de alerta.

Para recuperar instantáneas que no se hayan completado, consulte la API de Ops Manager utilizando el parámetro de consulta completed=false:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
--header "Accept: application/json" \
"https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"

La respuesta incluye una matriz results donde cada objeto representa una instantánea. El campo complete indica si la instantánea se completó correctamente.

Nota

La API de instantáneas no proporciona un estado de error con nombre. Una instantánea con complete: false puede estar aún en curso o haber fallado.

Para obtener más información,consulte Obtener todas las instantáneas de un clúster.

Utilice los siguientes métodos para confirmar que una tarea de restauración ha fallado.

Para ver el estado de los trabajos de restauración en la interfaz de usuario de Ops Manager:

1
2
3
4

La página Restores muestra una tabla con los últimos 300 trabajos de restauración. Consulte la columna Status para identificar los trabajos con los siguientes estados:

  • FAILED

  • CANCELED

  • IN_PROGRESS

  • FINISHED

Haz clic en una fila para ver más detalles sobre esa operación de restauración específica.

Para obtener más información, consulte Restauraciones.

Para recuperar trabajos de restauración mediante programación, consulte la API de Ops Manager:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
--header "Accept: application/json" \
"https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"

La respuesta incluye una matriz results donde cada objeto representa un trabajo de restauración. El campo statusName indica el estado del trabajo. Los valores posibles incluyen:

  • FINISHED

  • IN_PROGRESS

  • BROKEN

  • KILLED

Los trabajos de restauración con un statusName de BROKEN o KILLED se consideran fallidos.

Para filtrar los trabajos fallidos usando jq:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
--header "Accept: application/json" \
"https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \
| jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'

Para obtener más información, consulte Obtener todos los trabajos de restauración para un clúster.

Las siguientes secciones describen las causas comunes de fallos en las copias de seguridad y la restauración, y cómo solucionarlos.

Las siguientes secciones describen las causas comunes de fallos en las copias de seguridad y cómo solucionarlos.

La falta de espacio libre en disco en los nodos miembros del conjunto de réplicas puede provocar que el clúster entre en un estado inestable, lo que conlleva fallos en las copias de seguridad.

Para solucionar este problema, aumente la capacidad de almacenamiento disponible en el nodo dbPath de los nodos afectados. Supervise el uso del disco periódicamente para evitar que vuelva a ocurrir.

El proceso de copia de seguridad depende de que el agente de MongoDB se ejecute de forma continua. Si el agente se detiene o se reinicia constantemente, las copias de seguridad fallan.

Los síntomas incluyen:

  • Alertas como "El oplog de copia de seguridad está retrasado".

  • No se han recibido fragmentos de oplog durante una hora.

Para resolver este problema:

1
2

Los registros del agente suelen estar ubicados en:

/var/log/mongodb-mms-automation/backup-agent.log
3

Para obtener más información,consulte la sección "Solucionar problemas con el registro de operaciones de copia de seguridad".

El agente de copia de seguridad debe mantener una conexión con el conjunto de réplicas. Pueden producirse fallos debido a problemas de conectividad de red, a un nodo de MongoDB no disponible o a un fallo de autenticación.

Los síntomas que aparecen en los registros del agente incluyen:

  • server selection timeout

  • Authentication failed

Para resolver este problema:

1
mongosh "mongodb://host:port"
2

Confirme lo siguiente:

  • Acceso a la red entre el host del agente y los miembros del conjunto de réplicas.

  • Disponibilidad de réplicas

  • Copia de seguridad de las credenciales de usuario y los roles necesarios

Para obtener más información,consulte la sección "Solucionar problemas con el registro de operaciones de copia de seguridad".

Si el archivo oplog es demasiado pequeño o el agente de copia de seguridad no puede seguir el ritmo de la actividad de escritura, la copia de seguridad se retrasa y, finalmente, falla.

Los síntomas incluyen las siguientes alertas:

  • "La copia de seguridad requiere una resincronización".

  • "El registro de operaciones de respaldo está retrasado".

Para resolver este problema:

  • Aumente el tamaño del oplog para que la ventana del oplog cubra suficiente historial (se recomienda un mínimo de 24 horas).

  • Si la copia de seguridad se ha quedado demasiado desactualizada, vuelva a sincronizarla.

Una tarea de copia de seguridad requiere un demonio de copia de seguridad con espacio suficiente para almacenar una copia local del conjunto de réplicas respaldado. Si ningún demonio tiene espacio suficiente, la tarea no se puede vincular. Para solucionar este problema, agregue un demonio de copia de seguridad adicional para aumentar la capacidad.

Este problema también puede ocurrir cuando no se detecta un nodo primario en el conjunto de réplicas. Para solucionarlo, asegúrese de que el conjunto de réplicas esté en buen estado y tenga un nodo primario antes de volver a intentar la copia de seguridad.

Para obtener más información,consulte las preguntas frecuentes sobre copias de seguridad.

Las siguientes secciones describen las causas comunes de los fallos de restauración y cómo solucionarlos.

Al restaurar un clúster fragmentado, debe restaurar todos los fragmentos. El proceso de restauración fallará si intenta restaurar un único fragmento de forma aislada.

Para obtener más información, consulte la sección Restaurar limitaciones.

Una restauración automatizada puede fallar si ciertos ajustes de almacenamiento de la copia de seguridad de origen y la base de datos de destino no coinciden. Si falla un intento de restauración, Ops Manager mostrará los ajustes que no coincidan.

Para obtener una lista de los ajustes que deben coincidir, consulte la sección "Posibles causas de fallos en la restauración automática".

Las restauraciones a un punto específico en el tiempo requieren un historial continuo del oplog. Si hay una interrupción en el oplog, la restauración falla.

Las causas comunes de las lagunas en el registro de operaciones incluyen:

  • El agente de respaldo dejó de monitorizar el oplog.

  • El registro de operaciones se sobrescribió antes de que el agente lo procesara.

  • Se produjeron cambios en la topología del clúster.

  • Se ha producido un cambio en la versión de compatibilidad de funciones (FCV).

  • Se intentó realizar una restauración tras varios cambios de versión de MongoDB.

Para resolver este problema:

  • Restaurar desde la última instantánea válida tomada antes de la brecha del oplog, o

  • Espere hasta que se cree una nueva instantánea y, a continuación, realice la restauración de nuevo.

Para obtener más información,consulte Restaurar desde un punto específico en el tiempo.

Si el host de destino no tiene suficiente espacio de almacenamiento para los archivos de instantánea y la base de datos restaurada, la restauración fallará.

Para resolver este problema:

1
db.stats()
2

Verifique que dbPath tenga suficiente espacio libre en disco para alojar los datos restaurados antes de continuar.

Para obtener más información sobre el dbStats comando,dbStats consulte.

Si el problema persiste, recopile la siguiente información antes de ponerse en contacto con el soporte técnico:

  • Mensajes de error completos de la interfaz de usuario o la API de Ops Manager

  • Archivos de registro del agente de copia de seguridad

  • Versión del servidor MongoDB

  • Versión de Ops Manager

  • Registros relevantes del servidor MongoDB

  • Salida de la página de restauraciones o consulta de trabajo de restauración de la API

Volver

Recuperación de una instancia autónoma después de un apagado inesperado

En esta página