Join us Sept 17 at .local NYC! Use code WEB50 to save 50% on tickets. Learn more >
MongoDB Event
Menu Docs
Página inicial do Docs
/ /
Centro de Arquitetura Atlas
/

Orientações para Recuperação de desastres do Atlas

É fundamental que as empresas planejem a recuperação de desastres. É altamente recomendável que você prepare um plano abrangente de recuperação de desastres (DR) que inclua elementos como:

  • Seu objetivo de ponto de recuperação (RPO) designado

  • Seu objetivo de tempo de recuperação (RTO) designado

  • Processos automatizados que facilitam o alinhamento com esses objetivos

Utilize as recomendações desta página para se preparar e responder a desastres.

Para saber mais sobre configurações proativas de alta disponibilidade que podem ajudar na recuperação de desastres, consulte Recomendações do para Alta Disponibilidade do Atlas .

Para aprender sobre os recursos do Atlas que oferecem suporte à recuperação de desastres, consulte as seguintes páginas no Centro de Arquitetura Atlas:

Use as seguintes recomendações de recuperação de desastres para criar um plano de recuperação de desastres para sua organização. Estas recomendações fornecem informações sobre as medidas a serem tomadas no evento de um desastre.

É fundamental que você teste os planos nesta seção regularmente (idealmente trimestralmente, mas pelo menos semestralmente). Os testes geralmente ajudam a preparar a equipe de gerenciamento de banco de dados empresarial (EDM) para responder a desastres e, ao mesmo tempo, ajudar a manter as instruções atualizadas.

Alguns testes de recuperação de desastres podem exigir ações que não podem ser executadas por usuários do EDM. Nesses casos, abra um caso de suporte com o objetivo de realizar interrupções sintéticas pelo menos uma semana antes de quando você planeja executar um exercício de teste.

Recomendações que se aplicam apenas a sistemas em uma única região

Cada provedor de nuvem no qual você pode implantar clusters Atlas fornece redundância de dados padrão que ajuda a mitigar quaisquer interrupções:

  • O AWS armazena objetos em vários dispositivos em um mínimo de três zonas de disponibilidade em uma região do AWS.

  • O Microsoft Azure usa o armazenamento localmente redundante (LRS) que replica seus dados três vezes em um único centro de dados na região selecionada.

  • O Google Cloud dispersa seus dados em várias zonas na região de backup.

Para aprimorar a recuperação após desastres, você pode configurar o Atlas para criar automaticamente cópias de seus snapshots e registros em outras regiões. Isso garante que, mesmo que a região primária sofra uma interrupção, você poderá restaurar seu cluster usando cópias de snapshot armazenadas em outras regiões. O Atlas otimiza as velocidades de restauração selecionando a opção mais eficiente com base na disponibilidade da região, usando snapshots copiados se estiver restaurando em uma região onde essas cópias existem. Além disso, se o snapshot original estiver inacessível devido a uma interrupção regional, o Atlas restaurará usando a cópia de snapshot disponível mais próxima, minimizando o tempo de inatividade e melhorando a resiliência da recuperação. Para saber mais, consulte Configurar o Atlas para copiar automaticamente snapshots para outras regiões.

Recomendações que se aplicam apenas a implementações em várias regiões ou vários fornecedores de nuvem

Se você executar um cluster MongoDB multirregional ou multinuvem , certifique-se de configurar sua estratégia de backup para levar em conta suas necessidades específicas de mitigação de riscos de corrupção de dados. Resolva com que rapidez você pode identificar um possível problema de corrupção de dados em seu sistema. Depois de estabelecer esse período de detecção, configure a retenção de backup adequadamente e garanta que os snapshots estejam disponíveis para restauração a partir de antes da ocorrência da corrupção. Para levar em conta quaisquer atrasos ou dúvidas na detecção do problema, recomendamos que você inclua um buffer adicional, normalmente em torno de 10-15%, no cronograma de retenção do backup. Esse preenchimento ajuda a garantir que você possa recuperar dados limpos de forma confiável sem perder informações críticas, o que aumenta a resiliência e a confiabilidade gerais de sua implantação.

As recomendações a seguir se aplicam a todos os paradigmas de implantação.

Esta seção aborda os seguintes procedimentos de recuperação de desastres:

Se um único nó no seu conjunto de réplicas falhar devido a uma interrupção regional parcial , o seu sistema ainda deverá estar disponível, supondo que você tenha seguido as melhores práticas. Se você estiver lendo de secundários, poderá sofrer um desempenho degradado ou possíveis interrupções no evento de um nó secundário falhar, devido ao aumento da carga no cluster subprovisionado na época.

Você pode testar uma interrupção de nó primary no Atlas usando a funcionalidade Testar Failover Primário da UI do Atlas ou o endpoint da API de Administração do Atlas de Failover de Teste.

Os clusters multirregionais, no evento de uma interrupção regional , realizarão automaticamente uma eleição e identificarão um novo nó primário, se necessário. Essa alteração de topologia será automaticamente comunicada ao aplicação , permitindo que ele tome as ação corretivas necessárias. Para manter o tempo de atividade do aplicação no evento de uma interrupção regional, seu aplicação também deve ser implantado com uma topologia de multirregional . Esse requisito se estende para incluir qualquer serviço de terceiros com o qual seu aplicação possa ser integrado. Para saber mais, consulte Paradigma de implantação de várias regiões.

Se uma única interrupção de região ou interrupção de multirregional degradar o estado do seu cluster, siga estas etapas:

1
2

Você pode encontrar informações sobre a integridade do cluster na aba Overview do cluster da UI do Atlas .

3

Com base no número de nós que estão online, determine quantos novos nós são necessários para restaurar o conjunto de réplicas a um estado normal.

Um estado normal é um estado no qual a maioria dos nós está disponível.

4

Dependendo da causa da interrupção, pode haver outras regiões em um futuro próximo que também sofrerão interrupções não programadas. Por exemplo, se as interrupções foram causadas por um desastre natural na costa leste dos Estados Unidos, você deverá evitar regiões na costa leste dos Estados Unidos caso haja problemas adicionais.

5

Adicione o número necessário de nós para um estado normal em regiões que provavelmente não serão afetadas pela causa da interrupção.

Para reconfigurar um conjunto de réplicas durante uma interrupção adicionando regiões ou nós, consulte Reconfiguração de um conjunto de réplicas durante uma interrupção regional.

6

Além de adicionar nós para restaurar seu conjunto de réplicas para um estado normal, você pode adicionar nós adicionais para corresponder à topologia do seu conjunto de réplicas antes do desastre.

Você pode testar uma interrupção de região no Atlas usando o recurso Simular Interrupção da UI do Atlas ou o ponto de extremidade da API de Administração do Atlas de Simulação de Interrupção.

Com clusters multinuvem , é possível selecionar nós elegíveis entre provedores de nuvem para manter a alta disponibilidade. Caso o provedor no qual seu nó primary está distribuído fique indisponível, os nós elegíveis podem ser convertidos em nós primary para garantir a operação contínua. Por exemplo, você pode criar nós elegíveis na AWS, no Google Cloud e no Microsoft Azure para garantir que, se um provedor de nuvem sofrer uma interrupção, um nó elegível em um fornecedor separado possa assumir como nó primário do cluster. Para saber mais, consulte Paradigma de sistema multinuvem.

A maioria dos clusters multirregional do Atlas se recuperará automaticamente de uma única interrupção na região . Para saber mais, consulte a seção Alta disponibilidade e a página Sistema multirregional. Caso as interrupções regionais tenham eliminado a maioria dos nós, você deve determinar quantos nós a mais precisa adicionar para que a maioria dos nós seja saudável.

No caso altamente improvável de um provedor de nuvem inteiro ficar indisponível, siga estas instruções para restaurar sua implantação online:

1

Você precisará destas informações mais tarde neste procedimento para restaurar sua implantação.

2

Para obter uma lista de fornecedores de nuvem e informações, consulte Fornecedores de nuvem.

3

Para saber como visualizar seus snapshots de backup, consulte Visualizar snapshots de backup M10+.

4

Seu novo cluster deve ter uma topologia idêntica ao cluster original.

Como alternativa, em vez de criar um novo cluster completo, você também pode adicionar novos nós hospedados por um provedor de nuvem alternativo ao cluster existente.

5

Para saber como restaurar seu snapshot, consulte Restaurar seu cluster.

6

Para encontrar a nova string de conexão, consulte Conexão via Drivers. Revise sua pilha de aplicativos, pois provavelmente precisará redistribuí-la no novo provedor de nuvem.

No caso altamente improvável de o Plano de Controle do Atlas e a IU do Atlas não estarem disponíveis, seu cluster ainda estará disponível e acessível. Para saber mais, veja Reliability da plataforma. Abra um ticket de suporte com prioridade alta para investigar o problema mais a fundo.

Problemas de capacidade de recursos computacionais (como espaço em disco, RAM ou CPU) podem resultar de planejamento inadequado ou tráfego inesperado no banco de dados. Esse comportamento pode não ser resultado de um desastre.

Se um recurso computacional atingir o limite alocado e causar um desastre, siga estas instruções:

1

Para visualizar sua utilização de recursos na UI do Atlas, consulte Monitorar o desempenho em tempo real.

Para visualizar métricas com a API de administração do Atlas, consulte Monitoramento e registros.

2
3

Observe que o Atlas executará essa alteração de forma contínua, portanto, ela não deve ter nenhum impacto grande em seus aplicativos.

Para saber como alocar mais recursos, consulte Editar um cluster.

4

Importante

Esta é uma solução temporária destinada a reduzir o tempo de inatividade geral do sistema. Quando o problema subjacente for resolvido, mescle os dados do cluster recém-criado ao cluster original e ponto todos os aplicativos de volta para o cluster original.

Se um recurso computacional falhar e tornar seu cluster indisponível, siga estas instruções:

1
2
3

Para saber como restaurar seu snapshot, consulte Restaurar seu cluster.

4

Os dados de produção podem ser excluídos acidentalmente devido a erro humano ou a um bug no aplicativo criado sobre o banco de dados. Se o próprio cluster foi excluído acidentalmente, o Atlas pode reter o volume temporariamente.

Se o conteúdo de uma coleção ou de um banco de dados foi excluído, siga estas instruções para restaurar seus dados:

1
2

Você pode usar o mongoexport para criar uma cópia.

3

Se a exclusão ocorreu nas últimas 72 horas, e você configurou o backup contínuo, use a restauração de ponto no tempo (PIT) para restaurar a partir do ponto no tempo imediatamente anterior à exclusão.

Se a exclusão não ocorreu nas últimas 72 horas, restaure o backup mais recente de antes da ocorrência da exclusão no cluster.

Para saber mais, consulte Restaurar Seu Cluster.

4

Você pode usar o mongoimport com o modo upsert para importar seus dados e garantir que quaisquer dados que tenham sido modificados ou adicionados estejam corretamente replicados na coleção ou no banco de dados.

Se um driver falhar, siga estas instruções:

1

Você pode colaborar com a equipe de suporte técnico durante esta etapa.

Se você determinar que a reversão para uma versão anterior do driver corrigirá o problema, continue para a próxima etapa.

2
3

Essas mudanças podem ser alterações no código do aplicativo ou alterações na consulta. Por exemplo, pode haver uma alteração interruptiva se você estiver alternando entre as versões principal e secundária.

4
5

Certifique-se de que quaisquer outras alterações da etapa anterior estejam refletidas no ambiente de produção.

Importante

Esta é uma solução temporária destinada a reduzir o tempo de inatividade geral do sistema. Quando o problema subjacente for resolvido, mescle os dados do cluster recém-criado ao cluster original e ponto todos os aplicativos de volta para o cluster original.

Se os seus dados subjacentes forem corrompidos, siga estas instruções:

1
2
3

Para saber como restaurar seu snapshot, consulte Restaurar seu cluster.

4
5

Voltar

Backups

Nesta página