配置 Spark
概述
您可以在批处理和流式处理模式下配置读取和写入操作。 要了解可用配置选项的更多信息,请参阅以下页面:
指定配置
运用 SparkConf
您可以使用以下方法通过 SparkConf
指定配置选项:
SparkConf
应用程序中的 构造函数。要了解更多信息,请参阅 Java SparkConf 文档。
应用程序中的
SparkConf
构造函数。 要了解更多信息,请参阅 Python SparkConf 文档。
SparkConf
应用程序中的 构造函数。要了解更多信息,请参阅 Scala SparkConf 文档。
运行时的
--conf
标志。要了解更多信息,请参阅 Spark 文档中的动态加载 Spark 属性。$SPARK_HOME/conf/spark-default.conf
文件。
MongoDB Spark Connector 将使用 SparkConf
中的设置作为默认设置。
使用选项地图
在 Spark API 中,DataFrameReader
、DataFrameWriter
、DataStreamReader
和 DataStreamWriter
类均包含 option()
方法。可以使用此方法为底层读取或写入操作指定选项。
注意
以这种方式指定的选项将覆盖 SparkConf
中的任何相应设置。
简短形式语法
选项映射支持短格式语法。在指定选项键字符串时,您可以省略前缀。
例子
以下语法彼此等效:
dfw.option("spark.mongodb.write.collection", "myCollection").save()
dfw.option("spark.mongodb.collection", "myCollection").save()
dfw.option("collection", "myCollection").save()
要了解有关 option()
方法的详情,请参阅以下 Spark 文档页面:
使用系统属性
在 SparkConf
可用之前,Spark Connector 会读取一些配置设置。您必须用 JVM 系统属性来指定这些设置。
有关 Java 系统属性的更多信息,请参阅 Java 文档。
提示
配置异常
如果 Spark Connector 抛出 ConfigException
,请确认您的 SparkConf
或选项地图使用正确的语法并且仅包含有效的配置选项。