MongoDB Connector for Spark 提供了 MongoDB 和 Apache Spark 之间的集成。
注意
版本10 .x 的MongoDB Spark Connector是基于最新Spark API的全新Connector。 安装并迁移到版本10 .x 以利用新功能,例如与 Spark Structured Streaming 更紧密的集成。
版本 10.x 将使用新的命名空间 com.mongodb.spark.sql.connector.MongoTableProvider。这允许您将旧版 connector(版本 3.x 及更早版本)与版本 10.x 并行使用。
要了解有关 Connector 及其优点的更多信息,请参阅 MongoDB 博客文章。
通过该连接器,您可以访问旨在与 MongoDB 数据集搭配使用的所有 Spark 库:Dataset,它可用于通过 SQL 进行分析(得益于自动模式推断)、流式处理、机器学习和图形 API。您还可将此连接器与 Spark Shell 结合使用。
MongoDB Spark Connector 与以下版本的 Apache Spark 和 MongoDB 兼容:
MongoDB Connector for Spark | Spark 版本 | MongoDB 版本 |
|---|---|---|
10.5.0 | 3.1 至 3.5 | 6.0或更高版本 |