Menu Docs
Página inicial do Docs
/

Reliability no Atlas Well-Architected Framework

O pilar de confiabilidade do Atlas Well-Architected Framework inclui recursos e estratégias que minimizam o tempo de inatividade e evitam a perda de dados. Uma carga de trabalho confiável está ciente das falhas à medida que ocorrem e pode tomar ações eficientes, muitas vezes automáticas, para recuperar a disponibilidade e se recuperar da perda de dados.

Existem dois fundamentos para projetar uma implantação confiável e resiliente do Atlas:

  • Projete uma arquitetura de implantação com opções de configuração que assegurem alta disponibilidade em caso de interrupções de infraestrutura previstas.

  • Crie um plano de recuperação de desastres que defina as melhores práticas e procedimentos para se recuperar de cenários de desastres conforme seus níveis estabelecidos de RTO e RPO. Isso pode envolver a configuração de uma política de backup para complementar a estratégia de disponibilidade da sua implantação e fornecer opções de recuperação para eventos de perda ou corrupção de dados.

  • O objetivo de tempo de recuperação (RTO) é o tempo máximo de inatividade aceitável antes que o aplicativo seja restaurado e comece a atender ao tráfego após uma interrupção.

  • O objetivo de ponto de recuperação (RPO) é o volume máximo de dados que se pode perder em uma interrupção, medida em unidades de tempo.

  • A disponibilidade é uma medida de quão confiável seu sistema fica acessível e funcional quando necessário. Geralmente é expresso como uma porcentagem que representa a proporção do tempo em que o sistema está disponível durante um determinado período. Por exemplo, o padrão ouro de disponibilidade geralmente é 99,999%, ou "cinco noves", o que se traduz em aproximadamente 5 minutos e 25 segundos de tempo de inatividade possível por ano.

  • A alta disponibilidade refere-se à capacidade de um sistema de permanecer acessível durante falhas de componentes individuais. Uma arquitetura de implantação projetada para alta disponibilidade frequentemente utiliza mecanismos de redundância e failover para alcançar a tolerância a falhas, o que significa que pode alternar automaticamente para componentes em funcionamento quando uma falha é detectada.

  • A recuperação de desastres refere-se a estratégias para criar e gerenciar cópias discretas da carga de trabalho que podem ser utilizadas em situações de desastre. Um plano abrangente de recuperação de desastres define procedimentos para restabelecer a operação do sistema dentro de um RTO especificado e recuperar dados de um ponto no tempo dentro de um RPO especificado, após um cenário de desastre.

É importante combinar a arquitetura correta de alta disponibilidade, o plano de recuperação de desastres e a política de backup para a sua implantação, a fim de otimizar a confiabilidade enquanto equilibra o impacto nos custos.

A arquitetura de implantação padrão do MongoDB é projetada para alta disponibilidade. O Atlas implanta cada cluster como parte de um conjunto de réplicas com no mínimo três instâncias de banco de dados (também chamadas de nós) distribuídas automaticamente por diferentes zonas de disponibilidade. Em caso de interrupção de uma única zona, o failover entre instâncias é totalmente automático e é concluído em segundos, sem perda de dados, incluindo operações que estavam em andamento no momento da falha, caso as gravações repetíveis estejam ativadas. Para melhorar a disponibilidade dos seus aplicativos mais críticos, você pode dimensionar sua implantação adicionando nós, regiões ou provedores de nuvem para comportar interrupções de zona, região ou provedor.

Os backups também são críticos para a confiabilidade do sistema. Embora os sistemas projetados para alta disponibilidade dependam menos de backups para se proteger contra a perda de dados, os backups ainda são a melhor proteção contra cenários de desastres fora de eventos de interrupção da infraestrutura que possam resultar em perda ou corrupção de dados, como ameaças humanas (como ataques cibernéticos) ou erros de código. Um planejamento robusto de recuperação de desastres envolve decidir se uma política de backup é necessária para atender ao seus níveis calculados de RPO e RTO.

Utilize os seguintes recursos do Atlas Architecture Center para aprender mais sobre as funcionalidades e estratégias de confiabilidade no Atlas:

Ícone de alta disponibilidade do Atlas

Alta disponibilidade

Crie configurações de cluster que atendam às suas necessidades de disponibilidade e agilize a recuperação de desastres.

Ícone de backup do MongoDB

Backups

Configure as opções de backup do banco de dados no Atlas e obtenha recomendações para atender aos seus requisitos de RTO e RPO com snapshots de todo o cluster.

Ícone de recuperação de desastres na nuvem do MongoDB

Recuperação de desastres

Crie um plano de DR com etapas a serem seguidas em caso de interrupção, exclusão de dados de produção e muito mais.

Voltar

Exploração madeireira