Conectores

Conector do MongoDB para o Apache Spark

Crie novas classes de real-time analytics sofisticadas ao combinar o Apache Spark, o principal mecanismo de processamento de dados do setor, com o MongoDB, o banco de dados de crescimento mais rápido do setor. O Conector do MongoDB para o Apache Spark está disponível, certificado e atualmente tem suporte para uso em produção.

Baixar agora

Acesse as informações agora mesmo

Vivemos em um mundo de "big data". Mas não são apenas os dados em si que são valiosos, mas as informações que eles podem gerar. A rapidez com que uma organização pode desbloquear e agir com base nessas informações tornou-se uma fonte importante de vantagem competitiva. A coleta de dados nos sistemas operacionais e a dependência dos processos de extração noturnos, transformação e carregamento de processos (ETL) para atualizar o armazenamento de dados corporativos (EDW) não é mais suficiente.

Uma ilustração de um gráfico de barras crescente e um foguete
Um diagrama que descreve a aplicação de análise facilitada pelo Conector para o Apache Spark

Libere o poder do Apache Spark

O Conector do MongoDB para o Apache Spark expõe todas as bibliotecas do Spark, incluindo Scala, Java, Python e R. Os dados do MongoDB são materializados como DataFrames e conjunto de dados para análise com aprendizado de máquina, gráficos, streaming e APIs de SQL.

Aproveite o poder do MongoDB

O Conector do MongoDB para o Apache Spark pode aproveitar o pipeline de agregação e os índices secundários avançados do MongoDB para extrair, filtrar e processar somente os dados necessários — por exemplo, analisar todos os clientes localizados em um local específico. Os armazenamentos de dados NoSQL tradicionais não oferecem índices secundários ou agregações no banco de dados. Nesses casos, o Spark precisaria extrair todos os dados com base em uma chave primária simples, mesmo que apenas um subconjunto desses dados seja necessário para o processo do Spark. O Conector do MongoDB para o Apache Spark colocaliza o Resilient Distributed Datasets (RDDs) com o nó do MongoDB de origem para minimizar a movimentação de dados no cluster e reduzir a latência.
Uma ilustração de um pipeline de agregação com fluxo de dados

MongoDB e Apache Spark: trabalhando para equipes de ciência de dados

Embora o MongoDB ofereça recursos nativos avançados do Real-Time Analytics, há casos de uso em que a integração do mecanismo do Apache Spark pode ampliar o processamento dos dados operacionais gerenciados pelo MongoDB. Isso permite que os usuários operacionalizem os resultados gerados pelo Spark nos processos de negócios em tempo real com suporte do MongoDB.

Próximos passos

Pronto para começar?

Obtenha o Conector do MongoDB para o Apache Spark.
Conhecer agora mesmoFalar com a equipe de vendas
Database illustration