As operações de backup e restauração para sistemas gerenciados pelo Ops Manager podem falhar por vários motivos, incluindo problemas de conectividade do agente , restrições de espaço em disco ou inconsistências de oplog.
Esta página descreve como confirmar falhas de backup e restauração, descreve causas e soluções comuns e fornece orientações sobre o que coletar antes de entrar em contato com o suporte. Se o problema persistir após você completar as etapas abaixo, entre em contato com o Suporte técnico da.
Verificações de pré-requisitos
Antes de investigar a causa raiz de uma falha de backup ou restauração, confirme se ocorreu uma falha verificando os indicadores de status relevantes na interface do usuário ou na API do Ops Manager.
Verificar se há falhas de backup
Use os métodos a seguir para confirmar que uma tarefa de backup ou snapshot falhou.
Verificar o status do snapshot
Para confirmar se um snapshot falhou:
Você também pode clicar em JSON ao lado de um snapshot para visualizar campos adicionais, incluindo:
statuscreatedDatecompletedDatetotalDurationtransferSpeed
Esses campos ajudam a confirmar se o backup foi concluído com sucesso.
Para obter uma descrição de todos os estados do snapshot,consulte Visão Geral do Backup.
Verifique a página de trabalhos de backup
Para verificar problemas com tarefas de backup em andamento:
Para obter mais informações, consulte Trabalhos.
Verifique os registros de backup
Para revisar as mensagens de erro das tarefas de backup:
Os registros exibem mensagens de erro agrupadas por tempo, o que pode ajudar a diagnosticar a causa da falha de uma tarefa de backup .
Verifique Alertas
O Ops Manager gera alertas que indicam falhas ou problemas com tarefas de backup, incluindo:
"O backup atingiu um alto número de tentativas"
"O backup está em um estado inesperado"
"O conjunto de réplicas tem um snapshot atrasado"
Para obter uma lista completa das condições de alerta relacionadas ao backup, consulte Condições de alerta.
Consulte a API para snapshots incompletos
Para recuperar snapshots que não foram concluídos, consulte a API do Ops Manager usando o parâmetro de query completed=false:
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"
A resposta inclui uma array results em que cada objeto representa um snapshot. O campo complete indica se o snapshot foi concluído com sucesso.
Observação
A API de snapshot não fornece um status de falha nomeado. Um snapshot com complete: false pode ainda estar em andamento ou pode ter falhado.
Para obter mais informações, consulte Obter todos os snapshots de um cluster.
Verificar se há falhas de restauração
Use os métodos a seguir para confirmar que um tarefa de restauração falhou.
Verifique a página de restaurações
Para visualizar o status dos trabalhos de restauração na UI do Ops Manager:
A página Restores mostra uma tabela dos últimos 300 trabalhos de restauração. Verifique a coluna Status para identificar tarefas com os seguintes estados:
FAILEDCANCELEDIN_PROGRESSFINISHED
Clique em uma linha para ver mais detalhes sobre essa operação de restauração específica.
Para obter mais informações, consulte Restaurações.
Consulte a API para tarefas de restauração com falha
Para recuperar tarefas de restauração programaticamente, consulte a API do Ops Manager:
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"
A resposta inclui uma array results em que cada objeto representa um tarefa de restauração. O campo statusName indica o estado do tarefa . Os valores possíveis incluem:
FINISHEDIN_PROGRESSBROKENKILLED
Os trabalhos de restauração com um statusName de BROKEN ou KILLED são considerados com falha.
Para filtrar tarefas com falha usando jq:
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \ | jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'
Para obter mais informações, consulte Obter todos os trabalhos de restauração para um cluster.
Problemas e Resoluções Comuns
As seções a seguir descrevem causas comuns de falhas de backup e restauração e como resolvê-las.
Falhas de backup
As seções a seguir descrevem causas comuns de falhas de backup e como resolvê-las.
Espaço em disco insuficiente
A falta de espaço livre em disco nos nós do membro do conjunto de réplicas pode fazer com que o cluster entre em um estado não íntegro, levando a falhas de backup.
Para resolver este problema, aumente a capacidade de armazenamento disponível no dbPath dos nós afetados. Monitore o uso do disco regularmente para evitar a recorrência.
O MongoDB Agent está inativo ou instável
O processo de backup depende da execução contínua do MongoDB Agent . Se o agente parar ou continuar reiniciando, os backups falharão.
Os sinais incluem:
Alertas como "O oplog de backup está atrasado"
Nenhuma fatia de oplog recebida por uma hora
Para resolver esse problema:
Para obter mais informações, consulte Corrigir problemas de oplog em backup.
O agente não consegue alcançar o conjunto de réplicas
O agente de backup deve manter uma conexão com o conjunto de réplicas. As falhas podem ocorrer devido a problemas de conectividade de rede, um nó MongoDB indisponível ou uma falha de autenticação.
Os sinais nos registros do agente incluem:
server selection timeoutAuthentication failed
Para resolver esse problema:
Para obter mais informações, consulte Corrigir problemas de oplog em backup.
Problemas de oplog
Se o oplog for muito pequeno ou o agente de backup não conseguir acompanhar a atividade de gravação, o backup ficará atrasado e eventualmente falhará.
Os sinais incluem os seguintes alertas:
"O backup requer uma ressincronização"
"O oplog de backup está atrasado"
Para resolver esse problema:
Aumente o tamanho do oplog para que a oplog window cubra histórico suficiente (recomendado um mínimo de 24 horas).
Se o backup estiver muito atrasado, sincronize novamente o backup.
A tarefa de backup não consegue se vincular a um Backup Daemon
Uma tarefa de backup requer um Backup Daemon com espaço suficiente para armazenar uma cópia local do conjunto de réplicas de backup. Se nenhum daemon tiver espaço suficiente, o tarefa não se vinculará. Para resolver esse problema, adicione mais um Backup Daemon para aumentar a capacidade.
Esse problema também pode ocorrer quando nenhum primário é detectado no conjunto de réplicas. Para resolver isso, verifique se o conjunto de réplicas está íntegro e tem um primário antes de tentar novamente o backup.
Para obter mais informações, consulte Perguntas frequentes de backup.
Falhas de restauração
As seções a seguir descrevem causas comuns de falhas de restauração e como resolvê-las.
Tentando restaurar um único shard em um cluster fragmentado
Ao restaurar um cluster fragmentado, você deve restaurar todos os shards. O processo de restauração falhará se você tentar restaurar um único fragmento isoladamente.
Para obter mais informações, consulte Restaurar limitações.
Configurações incompatíveis entre o backup e o banco de dados de destino
Uma restauração automatizada pode falhar quando determinadas configurações de armazenamento do backup de origem e do banco de dados de destino não correspondem. Se uma tentativa de restauração falhar, o Ops Manager exibirá todas as configurações incompatíveis.
Para obter uma lista de configurações que devem ser correspondidas, consulte Possíveis causas de falha na restauração automatizada.
Intervalos de oplog durante a restauração point-in-time
As restaurações pontuais exigem um histórico de oplog contínuo. Se houver uma lacuna no oplog, a restauração falhará.
As causas comuns de lacunas no oplog incluem:
O agente de backup parou de acompanhar o oplog.
O oplog foi lançado antes do agente processá-lo.
Ocorreram alterações na topologia do cluster.
Ocorreu uma alteração da feature compatibility version (FCV).
Foi tentada uma restauração após as alterações de versão do MongoDB .
Para resolver esse problema:
Restaure a partir do último snapshot válido tirado antes da lacuna do oplog, ou
Aguarde até que um novo snapshot seja criado e execute a restauração novamente.
Para obter mais informações, consulte Restaurar de um momento específico.
Espaço em disco insuficiente no host de restauração
Se o host de destino não tiver armazenamento suficiente para os arquivos de snapshot e banco de dados restaurado, a restauração falhará.
Para resolver esse problema:
Para mais informações sobre o dbStats comando,dbStats consulte.
Diagnósticos a serem coletados para mais suporte
Se o problema persistir, colete as seguintes informações antes de entrar em contato com o Suporte técnico:
Mensagens de erro completas da UI ou API do Ops Manager
Arquivos de log do agente de backup
Versão do servidor MongoDB
Versão do Ops Manager
Registros relevantes do servidor MongoDB
Saída da página Restaurações ou query de tarefa de restauração da API