Amazon Web Services Amazon Web Services cole Visual ETL para seus dados no MongoDB Atlas
Venkatesh Shanbhag, Igor Alekseev, Anuj Panchal3 min read • Published Nov 22, 2024 • Updated Nov 22, 2024
Avalie esse Tutorial
Amazon Web Services Amazon Web Services Glue é um serviço de integração de dados sem servidor. Ele simplifica o processamento de dados para os clientes. A migração de dados entre o MongoDB Atlas e o Amazon Web Services Amazon Web Services torna-se eficiente com Amazon Web Services os recursos visuais de ETL (Extrair, Transformar e Carregar) do Amazon Web Services Glue. A interface visual e os recursos integrados permitem a extração e inserção de dados de e para collections do MongoDB Atlas , com transformações opcionais, antes de carregá-las no local de destino. Essa abordagem sem servidor e escalável garante a movimentação de dados econômicas, mantendo a segurança por meio de funções do IAM. Nesta publicação, apresentaremos Go uma abordagem visual para utilizar o MongoDB Atlas e o Amazon Web Services Amazon Web Services Glue para criar pipelines entre as duas plataformas.
Para acompanhar esta publicação e testar Amazon Web Services os recursos do Amazon Web Services Glue com o MongoDB Atlas, precisamos de uma Amazon Web Services conta no Amazon Web Services e de uma assinatura do MongoDB Atlas. Você pode se inscrever no MongoDB Atlas no Amazon Web Services marketplace do Amazon Web Services.
A publicação descreve um processo para transferir dados entre o MongoDB Atlas e o Amazon Web Services Amazon Web Services Spark SQL Amazon Web Services S usando os recursos visuais de ETL do Amazon Web Services3 Amazon Web Services Glue. Esses recursos permitem que os desenvolvedores criem pipelines ETL sem o conhecimento do Spark ou do SQL, aproveitando o Amazon Web Services Glue Studio. Esta publicação destaca os benefícios de usar o Amazon Web Services Amazon Web Services Glue para transformação de dados e integração com outros serviços do Amazon Web Amazon Web Services Services. O Amazon Web ServicesAmazon Web Services S,3sendo um armazenamento de objeto altamente escalável, durável e econômico, pode ser usado como data lakes, uma solução de armazenamento de dados, aprendizado de máquina, streaming de mídia, backup e recuperação e hospedagem na web.
- Configure um cluster MongoDB Amazon Web Services noAmazon Web Services. Para obter instruções, consulte Como configurar um cluster MongoDB .
- Configure o PrivateLink seguindo as etapas descritas em Conectar aplicativos com segurança a um plano de dados do MongoDB Atlas com o AWS AWS PrivateLink PrivateLink. Com AWS PrivateLink o AWS PrivateLink, simplificaremos nossa arquitetura de rede e garantiremos que o tráfego permaneça na rede da Amazon Web Services.Amazon Web Services
- Para obter a string de conexão string do cluster do MongoDB a partir da UI do Connect no console do MongoDB Atlas , navegue até a tela inicial do Atlas e clique em Connect para o Amazon Web Services cluster da Amazon Web Services ao qual deseja se conectar. Selecione o endpoint privado e o método de conexão.
- Copie a string de conexão SRV. Usamos essa string de conexão SRV nas etapas subsequentes.

A captura de tela abaixo mostra que carregamos uma collection de amostras (neste caso, amostras de dados meteorológicos) no MongoDB Atlas, à qual nos conectaremos nas próximas etapas. Observação: os registros nesta coleção incluem várias matrizes, bem como dados aninhados.

Antes de configurarmos o Amazon Web Services rastreador do Amazon Web Services Glue, precisamos criar a conexão do MongoDB Atlas no Amazon Web Services Amazon Web Services Glue.
- No Amazon Web Services console do Amazon Web Services Glue Studio, escolha Conectores no painel de navegação.
- Escolha Criar conexão.

- Ao preencher os detalhes da conexão, use a string de conexão SRV que obtivemos anteriormente no MongoDB Atlas.
- Na seção Opções de rede, adicione a VPC e a sub-rede. Importante: a VPC e a sub-rede devem corresponder às configurações do PrivateLink que você configurou anteriormente.

Depois que a conexão for configurada, navegue até o link | Trabalhos ETL | Visual ETL para criar o tarefa ETL .
Para abrir o editor visual do Glue, clique em Visual ETL ou Criar e editar tarefas ETL e, em seguida, clique em Visual ETL na próxima tela.

Se você salvou trabalhos, também poderá acessá-los a partir do Amazon Web Services Studio Amazon Web Services Glue.

Clique em (+) na tela inicial do editor visual do Glue para adicionar nós. Procure MongoDB e selecione MongoDB como fonte para ler a partir da conexão criada anteriormente.

Selecione a conexão MongoDB e forneça o nome do banco de dados de dados e da coleção. Salvar o pipeline.

Clique em (+) para adicionar mais um nó e procure por S3. Selecione Amazon S3 como Destino. Selecione MongoDB como nó principal.

Selecione o formato de dados para o arquivo de dados de destino . Selecione o3 bucket S onde deseja escrever os dados e clique em Salvar.

Execute a tarefa clicando no botão no canto superior direito.

A tarefa levará alguns minutos para ser concluída. Você pode monitorar sua tarefa na aba Executações, conforme mostrado abaixo.

Você pode verificar seus dados gravados no S3 navegando até o bucket S3.

Assista a este vídeo para ver as etapas em ação
Amazon Web Services O Amazon Web Services Glue Visual ETL simplifica a criação e o gerenciamento de transformações de dados, permitindo que os desenvolvedores criem pipelines ETL sem o conhecimento especializado de ferramentas de engenharia de dados. Ela oferece conectores para vários Amazon Web Servicesprodutos e serviços nativos de terceiros e do Amazon Web Services. Isso permite que você enriqueça dados de várias fontes para análise em armazenamento de dados, enquanto cria pipelines eficientes sem esforço com o Glue Visual ETL. Para transformações avançadas de dados envolvendo o MongoDB Atlas, consulte a Amazon Web Services documentação do Amazon Web Services Glue.
Principais comentários nos fóruns
Edgar_FintanaEdgar Quintana2 trimestres atrás
Bom artigo, mas como posso implementar um trabalho que precisa analisar os novos dados todos os dias de acordo com o campo updated_at , devo ter que trabalhar com todos os dados da coleção MongoDB todas as vezes? Existe uma maneira de filtrar os dados da query antes que eles sejam gerenciados no tarefa do Glue para que eu possa reduzir a transferência de dados e o custo de processamento e também o uso de recursos? Agradecimentos