Solução de problemas ao fazer backup e restaurar

As operações de backup e restauração para implantações gerenciadas pelo Ops Manager podem falhar por vários motivos, incluindo problemas de conectividade do agente, restrições de espaço em disco ou inconsistências de oplog.

Esta página descreve como confirmar falhas de backup e restauração, descreve causas e soluções comuns e fornece orientações sobre o que coletar antes de entrar em contato com o suporte. Se o problema persistir após você completar as etapas abaixo, entre em contato com o Suporte técnico.

Verificações de pré-requisitos

Antes de investigar a causa raiz de uma falha de backup ou restauração, confirme se ocorreu uma falha verificando os indicadores de status relevantes na IU ou na API do Ops Manager.

Verificar se há falhas de backup

Use os métodos a seguir para confirmar que uma tarefa de backup ou snapshot falhou.

Verificar o status do snapshot

Para confirmar se um snapshot falhou:

Navegue até snapshots na IU do Ops Manager.

Clique em Admin.
Clique em Backups.
Clique em Snapshots.

Procure o conjunto de réplicas ou implantação.

Revise a coluna State.

A coluna mostra se o snapshot foi bem-sucedido, está em execução ou falhou.

Você também pode clicar em JSON ao lado de um snapshot para visualizar campos adicionais, incluindo:

status
createdDate
completedDate
totalDuration
transferSpeed

Esses campos ajudam a confirmar se o backup foi concluído com sucesso.

Para obter uma descrição de todos os estados do snapshot, consulte Visão Geral do Backup.

Verifique a página de trabalhos de backup

Para verificar problemas com tarefas de backup em andamento:

Navegue até a página Tarefas de backup.

Clique em Admin.
Clique em Backup.
Clique em Jobs.

Encontre seu conjunto de réplicas ou cluster.

Procure os campos destacados.

Campos como Last Snapshot, Last Oplog ou Head Time podem aparecer destacados quando atrasados, indicando um problema com o processo de backup.

Para obter mais informações, consulte Trabalhos.

Verifique os registros de backup

Para revisar as mensagens de erro das tarefas de backup:

Navegue até registros.

Clique em Admin.
Clique em Logs.

Filtro para tarefas de backup.

Os registros exibem mensagens de erro agrupadas por tempo, o que pode ajudar a diagnosticar a causa da falha de uma tarefa de backup .

Verifique Alertas

O Ops Manager gera alertas que indicam falhas ou problemas com tarefas de backup, incluindo:

"O backup atingiu um alto número de tentativas"
"O backup está em um estado inesperado"
"O conjunto de réplicas tem um snapshot atrasado"

Para obter uma lista completa das condições de alerta relacionadas ao backup, consulte Condições de alerta.

Consulte a API para snapshots incompletos

Para recuperar snapshots que não foram concluídos, consulte a API do Ops Manager usando o parâmetro de query completed=false:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
  --header "Accept: application/json" \
  "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"

A resposta inclui uma array results em que cada objeto representa um snapshot. O campo complete indica se o snapshot foi concluído com sucesso.

Observação

A API de snapshot não fornece um status de falha nomeado. Um snapshot com complete: false pode ainda estar em andamento ou pode ter falhado.

Para obter mais informações, consulte Obter todos os snapshots de um cluster.

Verificar se há falhas de restauração

Use os métodos a seguir para confirmar que um tarefa de restauração falhou.

Verifique a página de restaurações

Para visualizar o status das tarefas de restauração na IU do Ops Manager:

Clique em Deployment.

Clique no seu cluster ou conjunto de réplicas.

Clique na aba Backup.

Clique em Restores.

A página Restores mostra uma tabela dos últimos 300 trabalhos de restauração. Verifique a coluna Status para identificar tarefas com os seguintes estados:

FAILED
CANCELED
IN_PROGRESS
FINISHED

Clique em uma linha para ver mais detalhes sobre essa operação de restauração específica.

Para obter mais informações, consulte Restaurações.

Consulte a API para tarefas de restauração com falha

Para recuperar tarefas de restauração programaticamente, consulte a API do Ops Manager:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
  --header "Accept: application/json" \
  "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"

A resposta inclui uma array results em que cada objeto representa um tarefa de restauração. O campo statusName indica o estado do tarefa . Os valores possíveis incluem:

FINISHED
IN_PROGRESS
BROKEN
KILLED

Os trabalhos de restauração com um statusName de BROKEN ou KILLED são considerados com falha.

Para filtrar tarefas com falha usando jq:

curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \
  --header "Accept: application/json" \
  "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \
  | jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'

Para obter mais informações, consulte Obter todos os trabalhos de restauração para um cluster.

Problemas e Resoluções Comuns

As seções a seguir descrevem causas comuns de falhas de backup e restaurar e como resolvê-las.

Falhas de backup

As seções a seguir descrevem causas comuns de falhas de backup e como resolvê-las.

Espaço em disco insuficiente

A falta de espaço livre em disco nos nós do membro do conjunto de réplicas pode fazer com que o cluster entre em um estado não íntegro, levando a falhas de backup.

Para resolver este problema, aumente a capacidade de armazenamento disponível no dbPath dos nós afetados. Monitore o uso do disco regularmente para evitar a recorrência.

O MongoDB Agent está inativo ou instável

O processo de backup depende da execução contínua do MongoDB Agent . Se o agente parar ou continuar reiniciando, os backups falharão.

Os sinais incluem:

Alertas como "O oplog de backup está atrasado"
Nenhuma fatia de oplog recebida por uma hora

Para resolver esse problema:

Verifique se o processo do agente está em execução no host.

Verifique os registros do agente .

Os registros do agente normalmente estão localizados em:

/var/log/mongodb-mms-automation/backup-agent.log

Corrija quaisquer problemas de permissão ou erros de configuração que causem reinicializações.

Para obter mais informações, consulte Corrigir problemas de oplog em backup.

O agente não consegue alcançar o conjunto de réplicas

O agente de backup deve manter uma conexão com o conjunto de réplicas. As falhas podem ocorrer devido a problemas de conectividade de rede, um nó MongoDB indisponível ou uma falha de autenticação.

Os sinais nos registros do agente incluem:

server selection timeout
Authentication failed

Para resolver esse problema:

Teste a conectividade do host do agente de backup.

mongosh "mongodb://host:port"

Verifique o acesso à rede e as credenciais.

Confirme o seguinte:

Acesso à rede entre o host do agente e os membros do conjunto de réplicas
Disponibilidade do conjunto de réplicas
Fazer backup das credenciais do usuário e das funções necessárias

Para obter mais informações, consulte Corrigir problemas de oplog em backup.

Problemas de oplog

Se o oplog for muito pequeno ou o agente de backup não conseguir acompanhar a atividade de gravação, o backup ficará atrasado e eventualmente falhará.

Os sinais incluem os seguintes alertas:

"O backup requer uma ressincronização"
"O oplog de backup está atrasado"

Para resolver esse problema:

Aumente o tamanho do oplog para que a oplog window cubra histórico suficiente (recomendado um mínimo de 24 horas).
Se o backup estiver muito atrasado, sincronize novamente o backup.

A tarefa de backup não consegue se vincular a um Backup Daemon

Uma tarefa de backup requer um Backup Daemon com espaço suficiente para armazenar uma cópia local do conjunto de réplicas de backup. Se nenhum daemon tiver espaço suficiente, o tarefa não se vinculará. Para resolver esse problema, adicione mais um Backup Daemon para aumentar a capacidade.

Esse problema também pode ocorrer quando nenhum primário é detectado no conjunto de réplicas. Para resolver isso, verifique se o conjunto de réplicas está íntegro e tem um primário antes de tentar novamente o backup.

Para obter mais informações, consulte Perguntas frequentes de backup.

Restaurar falhas

As seções a seguir descrevem causas comuns de falhas de restauração e como resolvê-las.

Tentando restaurar um único fragmento em um cluster

Ao restaurar um cluster fragmentado, você deve restaurar todos os fragmentos. O processo de restauração falhará se você tentar restaurar um único fragmento isoladamente.

Para obter mais informações, consulte Restaurar limitações.

Configurações incompatíveis entre o backup e o banco de dados de destino

Uma restauração automatizada pode falhar quando determinadas configurações de armazenamento do backup de origem e do banco de dados de destino não correspondem. Se uma tentativa de restauração falhar, o Ops Manager exibirá todas as configurações incompatíveis.

Para obter uma lista de configurações que devem ser correspondidas, consulte Possíveis causas de falha na restauração automatizada.

Intervalos de oplog durante a restauração point-in-time

As restaurações point-in-time exigem um histórico de oplog contínuo. Se houver uma lacuna no oplog, a restauração falhará.

As causas comuns de lacunas no oplog incluem:

O agente de backup parou de acompanhar o oplog.
O oplog foi lançado antes do agente processá-lo.
Ocorreram alterações na topologia do cluster.
Ocorreu uma alteração da versão de compatibilidade do recurso (FCV).
Foi tentada uma restauração após as alterações de versão do MongoDB .

Para resolver esse problema:

Restaure a partir do último snapshot válido tirado antes da lacuna do oplog, ou
Aguarde até que um novo snapshot seja criado e execute a restauração novamente.

Para obter mais informações, consulte Restaurar de um ponto específico.

Espaço em disco insuficiente no host de restauração

Se o host de destino não tiver armazenamento suficiente para os arquivos de snapshot e banco de dados restaurado, a restauração falhará.

Para resolver esse problema:

Verifique o tamanho do banco de dados que você está restaurando.

db.stats()

Garanta espaço em disco suficiente no host de destino.

Verifique se o dbPath tem espaço livre em disco suficiente para acomodar os dados restaurados antes de continuar.

Para mais informações sobre o comando dbStats, consulte dbStats.

Diagnósticos a serem coletados para mais suporte

Se o problema persistir, colete as seguintes informações antes de entrar em contato com o Suporte técnico:

Mensagens de erro completas da IU ou API do Ops Manager
Arquivos de log do agente de backup
Versão do servidor MongoDB
Versão do Ops Manager
Registros relevantes do servidor MongoDB
Saída da página Restaurações ou query de tarefa de restauração da API

Problemas relacionados

Saiba mais

Voltar

Recuperar um standalone após desligamento inesperado

Monitorar clusters