Make the MongoDB docs better! We value your opinion. Share your feedback for a chance to win $100.
Click here >
Docs Menu
Docs Home
/ /

FAQ

Para cualquier implementación de MongoDB, el Spark Connector establece que la ubicación preferida para un DataFrame o Dataset sea donde se encuentran los datos.

  • Para un sistema no segmentado, establece la ubicación preferida como el(los) hostname(s) del autónomo o el set de réplicas.

  • Para un sistema particionado, establece que la ubicación preferida sea el(los) nombre(s) de host de las particiones.

Para promover la localización de datos, recomendamos tomar las siguientes acciones:

En las implementaciones de MongoDB con versiones mixtas de mongod, es posible recibir un error Unrecognized pipeline stage name: '$sample'. Para mitigar esta situación, configura explícitamente el particionador que se va a utilizar y define el esquema al usar DataFrames.

Para usar mTLS, incluya las siguientes opciones cuando ejecute spark-submit:

--driver-java-options -Djavax.net.ssl.trustStore=<path to your truststore.jks file> \
--driver-java-options -Djavax.net.ssl.trustStorePassword=<your truststore password> \
--driver-java-options -Djavax.net.ssl.keyStore=<path to your keystore.jks file> \
--driver-java-options -Djavax.net.ssl.keyStorePassword=<your keystore password> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.trustStore=<path to your truststore.jks file> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.trustStorePassword=<your truststore password> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.keyStore=<path to your keystore.jks file> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.keyStorePassword=<your keystore password> \

El MongoConnector incluye una caché que permite a los trabajadores compartir un solo MongoClient entre hilos. Para especificar el tiempo durante el cual se debe mantener disponible un MongoClient, incluya la opción mongodb.keep_alive_ms cuando ejecute spark-submit:

--driver-java-options -Dmongodb.keep_alive_ms=<number of milliseconds to keep MongoClient available>

Por defecto, esta propiedad tiene un valor de 5000.

Nota

Debido a que la caché se configura antes de que Spark Configuration esté disponible, debe usar una propiedad del sistema para configurarla.

Volver

Configuración