Reliability no Atlas Well-Architected Framework

A coluna Confiabilidade da Estrutura Bem-Arquitetada do Atlas inclui recursos e estratégias que minimizam o tempo de inatividade e evitam a perda de dados. Uma carga de trabalho confiável está ciente das falhas à medida que elas ocorrem e pode tomar ação eficientes e, geralmente, automáticas, para recuperar a disponibilidade e a recuperação da perda de dados.

Fundamentos para a confiabilidade

Veja a seguir os fundamentos para projetar uma implantação confiável e resiliente do Atlas:

Alta disponibilidade (HA): implemente arquiteturas que se auto-reparam automaticamente quando a infraestrutura falha. HA fornece failover automático com RPO = 0 e RTO em segundos.
Recuperação de desastres (DR): implemente procedimentos de recuperação manual usando backups para cenários que o failover automático não pode resolver, como corrupção de dados ou exclusão acidental.
Planejamento de continuidade de negócios (BCP): crie um plano abrangente que combina arquitetura HA, procedimentos de DR, testes e documentação para atender seus objetivos de RTO e RPO.

Definições

O objetivo de tempo de recuperação (RTO) é o tempo máximo de inatividade aceitável antes que o aplicativo seja restaurado e comece a atender ao tráfego após uma interrupção.
O objetivo de ponto de recuperação (RPO) é o volume máximo de dados que se pode perder em uma interrupção, medida em unidades de tempo.
A disponibilidade é uma medida de quão confiável seu sistema fica acessível e funcional quando necessário. Geralmente é expresso como uma porcentagem que representa a proporção do tempo em que o sistema está disponível durante um determinado período. Por exemplo, o padrão ouro de disponibilidade geralmente é 99,999%, ou "cinco noves", o que se traduz em aproximadamente 5 minutos e 25 segundos de tempo de inatividade possível por ano.

Visão geral dos recursos do Atlas para confiabilidade

O Atlas fornece as seguintes abordagens complementares para confiabilidade:

Alta disponibilidade - Proteção automática

As implantações do Atlas usam conjuntos de réplicas com failover automático para fornecer disponibilidade contínua durante falhas de infraestrutura. Cada cluster implanta um mínimo de três instâncias do banco de dados distribuídas em diferentes zonas de disponibilidade. Quando um nó ou zona falha, o failover automático é concluído em segundos sem perda de dados (ao usar majority write concern). Dimensione sua implantação em várias regiões ou provedores de nuvem para obter proteção contra interrupções regionais ou de provedor.

Recuperação de desastres - Proteção manual

Os backups oferecem proteção para cenários que o failover automático não pode resolver, como corrupção de dados, exclusão acidental ou perda total da implantação. O Atlas oferece backups totalmente gerenciados com frequência configurável, recuperação point-in-time e distribuição multirregional . Eles exigem intervenção manual para restaurar, mas protegem contra problemas de integridade de dados que se replicam em todos os nós.

Seu plano abrangente

Combine as duas abordagens em um plano de continuação de negócios que documenta seus objetivos de recuperação, arquitetura de implantação, estratégia de backup, procedimentos de teste e planos de resposta para diferentes cenários de falha.

Utilize os seguintes recursos do Atlas Architecture Center para aprender mais sobre as funcionalidades e estratégias de confiabilidade no Atlas:

Alta disponibilidade

Crie configurações de cluster que atendam às suas necessidades de disponibilidade e agilize a recuperação de desastres.

Recuperação de desastres

Implemente a recuperação manual usando backups para corrupção de dados, exclusão acidental e cenários que o failover automático não pode resolver.

Planejamento de continuação de negócios

Crie um plano de resiliência abrangente que combine arquitetura de alta disponibilidade, procedimentos de recuperação de desastres, testes e documentação.

Voltar

Exploração madeireira

Alta disponibilidade