Make the MongoDB docs better! We value your opinion. Share your feedback for a chance to win $100.
Click here >
Menu Docs
Página inicial do Docs
/ /

Solução de problemas de backup e restauração

As operações de backup e restauração para sistemas gerenciados pelo Ops Manager podem falhar por vários motivos, incluindo problemas de conectividade do agente , restrições de espaço em disco ou inconsistências de oplog.

Esta página descreve como confirmar falhas de backup e restauração, descreve causas e soluções comuns e fornece orientações sobre o que coletar antes de entrar em contato com o suporte. Se o problema persistir após você completar as etapas abaixo, entre em contato com o Suporte técnico da.

Antes de investigar a causa raiz de uma falha de backup ou restauração, confirme se ocorreu uma falha verificando os indicadores de status relevantes na interface do usuário ou na API do Ops Manager.

Use os métodos a seguir para confirmar que uma tarefa de backup ou snapshot falhou.

Para confirmar se um snapshot falhou:

1
  1. Clique em Admin.

  2. Clique em Backups.

  3. Clique em Snapshots.

2
3

A coluna mostra se o snapshot foi bem-sucedido, está em execução ou falhou.

Você também pode clicar em JSON ao lado de um snapshot para visualizar campos adicionais, incluindo:

  • status

  • createdDate

  • completedDate

  • totalDuration

  • transferSpeed

Esses campos ajudam a confirmar se o backup foi concluído com sucesso.

Para obter uma descrição de todos os estados do snapshot,consulte Visão Geral do Backup.

Para verificar problemas com tarefas de backup em andamento:

1
  1. Clique em Admin.

  2. Clique em Backup.

  3. Clique em Jobs.

2
3

Campos como Last Snapshot, Last Oplog ou Head Time podem aparecer destacados quando atrasados, indicando um problema com o processo de backup.

Para obter mais informações, consulte Trabalhos.

Para revisar as mensagens de erro das tarefas de backup:

1
  1. Clique em Admin.

  2. Clique em Logs.

2

Os registros exibem mensagens de erro agrupadas por tempo, o que pode ajudar a diagnosticar a causa da falha de uma tarefa de backup .

O Ops Manager gera alertas que indicam falhas ou problemas com tarefas de backup, incluindo:

  • "O backup atingiu um alto número de tentativas"

  • "O backup está em um estado inesperado"

  • "O conjunto de réplicas tem um snapshot atrasado"

Para obter uma lista completa das condições de alerta relacionadas ao backup, consulte Condições de alerta.

Para recuperar snapshots que não foram concluídos, consulte a API do Ops Manager usando o parâmetro de query completed=false:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
--header "Accept: application/json" \
"https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"

A resposta inclui uma array results em que cada objeto representa um snapshot. O campo complete indica se o snapshot foi concluído com sucesso.

Observação

A API de snapshot não fornece um status de falha nomeado. Um snapshot com complete: false pode ainda estar em andamento ou pode ter falhado.

Para obter mais informações, consulte Obter todos os snapshots de um cluster.

Use os métodos a seguir para confirmar que um tarefa de restauração falhou.

Para visualizar o status dos trabalhos de restauração na UI do Ops Manager:

1
2
3
4

A página Restores mostra uma tabela dos últimos 300 trabalhos de restauração. Verifique a coluna Status para identificar tarefas com os seguintes estados:

  • FAILED

  • CANCELED

  • IN_PROGRESS

  • FINISHED

Clique em uma linha para ver mais detalhes sobre essa operação de restauração específica.

Para obter mais informações, consulte Restaurações.

Para recuperar tarefas de restauração programaticamente, consulte a API do Ops Manager:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
--header "Accept: application/json" \
"https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"

A resposta inclui uma array results em que cada objeto representa um tarefa de restauração. O campo statusName indica o estado do tarefa . Os valores possíveis incluem:

  • FINISHED

  • IN_PROGRESS

  • BROKEN

  • KILLED

Os trabalhos de restauração com um statusName de BROKEN ou KILLED são considerados com falha.

Para filtrar tarefas com falha usando jq:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
--header "Accept: application/json" \
"https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \
| jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'

Para obter mais informações, consulte Obter todos os trabalhos de restauração para um cluster.

As seções a seguir descrevem causas comuns de falhas de backup e restauração e como resolvê-las.

As seções a seguir descrevem causas comuns de falhas de backup e como resolvê-las.

A falta de espaço livre em disco nos nós do membro do conjunto de réplicas pode fazer com que o cluster entre em um estado não íntegro, levando a falhas de backup.

Para resolver este problema, aumente a capacidade de armazenamento disponível no dbPath dos nós afetados. Monitore o uso do disco regularmente para evitar a recorrência.

O processo de backup depende da execução contínua do MongoDB Agent . Se o agente parar ou continuar reiniciando, os backups falharão.

Os sinais incluem:

  • Alertas como "O oplog de backup está atrasado"

  • Nenhuma fatia de oplog recebida por uma hora

Para resolver esse problema:

1
2

Os registros do agente normalmente estão localizados em:

/var/log/mongodb-mms-automation/backup-agent.log
3

Para obter mais informações, consulte Corrigir problemas de oplog em backup.

O agente de backup deve manter uma conexão com o conjunto de réplicas. As falhas podem ocorrer devido a problemas de conectividade de rede, um nó MongoDB indisponível ou uma falha de autenticação.

Os sinais nos registros do agente incluem:

  • server selection timeout

  • Authentication failed

Para resolver esse problema:

1
mongosh "mongodb://host:port"
2

Confirme o seguinte:

  • Acesso à rede entre o host do agente e os membros do conjunto de réplicas

  • Disponibilidade do conjunto de réplicas

  • Fazer backup das credenciais do usuário e das funções necessárias

Para obter mais informações, consulte Corrigir problemas de oplog em backup.

Se o oplog for muito pequeno ou o agente de backup não conseguir acompanhar a atividade de gravação, o backup ficará atrasado e eventualmente falhará.

Os sinais incluem os seguintes alertas:

  • "O backup requer uma ressincronização"

  • "O oplog de backup está atrasado"

Para resolver esse problema:

  • Aumente o tamanho do oplog para que a oplog window cubra histórico suficiente (recomendado um mínimo de 24 horas).

  • Se o backup estiver muito atrasado, sincronize novamente o backup.

Uma tarefa de backup requer um Backup Daemon com espaço suficiente para armazenar uma cópia local do conjunto de réplicas de backup. Se nenhum daemon tiver espaço suficiente, o tarefa não se vinculará. Para resolver esse problema, adicione mais um Backup Daemon para aumentar a capacidade.

Esse problema também pode ocorrer quando nenhum primário é detectado no conjunto de réplicas. Para resolver isso, verifique se o conjunto de réplicas está íntegro e tem um primário antes de tentar novamente o backup.

Para obter mais informações, consulte Perguntas frequentes de backup.

As seções a seguir descrevem causas comuns de falhas de restauração e como resolvê-las.

Ao restaurar um cluster fragmentado, você deve restaurar todos os shards. O processo de restauração falhará se você tentar restaurar um único fragmento isoladamente.

Para obter mais informações, consulte Restaurar limitações.

Uma restauração automatizada pode falhar quando determinadas configurações de armazenamento do backup de origem e do banco de dados de destino não correspondem. Se uma tentativa de restauração falhar, o Ops Manager exibirá todas as configurações incompatíveis.

Para obter uma lista de configurações que devem ser correspondidas, consulte Possíveis causas de falha na restauração automatizada.

As restaurações pontuais exigem um histórico de oplog contínuo. Se houver uma lacuna no oplog, a restauração falhará.

As causas comuns de lacunas no oplog incluem:

  • O agente de backup parou de acompanhar o oplog.

  • O oplog foi lançado antes do agente processá-lo.

  • Ocorreram alterações na topologia do cluster.

  • Ocorreu uma alteração da feature compatibility version (FCV).

  • Foi tentada uma restauração após as alterações de versão do MongoDB .

Para resolver esse problema:

  • Restaure a partir do último snapshot válido tirado antes da lacuna do oplog, ou

  • Aguarde até que um novo snapshot seja criado e execute a restauração novamente.

Para obter mais informações, consulte Restaurar de um momento específico.

Se o host de destino não tiver armazenamento suficiente para os arquivos de snapshot e banco de dados restaurado, a restauração falhará.

Para resolver esse problema:

1
db.stats()
2

Verifique se o dbPath tem espaço livre em disco suficiente para acomodar os dados restaurados antes de continuar.

Para mais informações sobre o dbStats comando,dbStats consulte.

Se o problema persistir, colete as seguintes informações antes de entrar em contato com o Suporte técnico:

  • Mensagens de erro completas da UI ou API do Ops Manager

  • Arquivos de log do agente de backup

  • Versão do servidor MongoDB

  • Versão do Ops Manager

  • Registros relevantes do servidor MongoDB

  • Saída da página Restaurações ou query de tarefa de restauração da API

Voltar

Recuperar um standalone após desligamento inesperado

Nesta página