Conectores

MongoDB Connector for Apache Spark

Cree nuevas clases de análisis sofisticados en tiempo real combinando Apache Spark, el motor de procesamiento de datos líder del sector, con MongoDB, la base de datos de más rápido crecimiento del sector. El MongoDB Connector for Apache Spark está disponible a nivel general, está certificado y es compatible para su uso en producción en la actualidad.

Descargar ahora

Acceda a la información ahora

Vivimos en un mundo de “big data”. Pero no solo los datos en sí son valiosos, sino la información que pueden generar. La rapidez con la que una organización puede desbloquear esa información y actuar al respecto se ha convertido en una fuente importante de ventaja competitiva. Ya no basta con recopilar datos en los sistemas operativos y confiar en los procesos nocturnos de extracción, transformación y carga (ETL) por lotes para actualizar el almacén de datos empresariales (EDW).

Una ilustración de un gráfico de barras creciente y un cohete
Un diagrama que describe la aplicación de análisis facilitada por Apache Spark Connector

Desbloquee el poder de Apache Spark

El MongoDB Connector for Apache Spark expone todas las bibliotecas de Spark, incluidas Scala, Java, Python y R. Los datos de MongoDB se materializan como DataFrames y Datasets para su análisis con aprendizaje automático, gráficos, secuencias y API de SQL.

Aproveche el poder de MongoDB

El MongoDB Connector for Apache Spark puede aprovechar el aggregation pipeline de MongoDB y los índices secundarios enriquecidos para extraer, filtrar y procesar solo los datos que necesita, por ejemplo, analizar todos los clientes ubicados en una geografía específica. Los almacenes de datos NoSQL tradicionales no ofrecen índices secundarios ni agregaciones en la base de datos. En estos casos, Spark tendría que extraer todos los datos en función de una clave principal simple, incluso si solo se requiere un subconjunto de esos datos para el proceso de Spark. El MongoDB Connector for Apache Spark ubica conjuntos de datos distribuidos resistentes (RDD) con el nodo de MongoDB de origen para minimizar el movimiento de datos en el clúster y reducir la latencia.
Ilustración de un aggregation pipeline con flujo de datos

MongoDB y Apache Spark: trabajar para equipos de ciencia de datos hoy

Si bien MongoDB ofrece de forma nativa amplias capacidades de análisis en tiempo real, hay casos de uso en los que la integración del motor Apache Spark puede ampliar el procesamiento de los datos operativos gestionados por MongoDB. Esto permite a los usuarios poner en práctica los resultados generados por Spark dentro de los procesos empresariales en tiempo real compatibles con MongoDB.

Próximos pasos

¿Listo para empezar?

Obtenga el MongoDB connector for Apache Spark.
Probar ahoraContactar con ventas
Database illustration