Overview
Puedes configurar las siguientes propiedades cuando leas datos desde MongoDB en modo transmisión.
Nota
Si utiliza SparkConf para establecer las configuraciones de lectura del conector, anteponga spark.mongodb.read. a cada propiedad.
Nombre de la propiedad | Descripción | ||
|---|---|---|---|
| Requerido. | ||
| Requerido. | ||
| Requerido. | ||
| Comentario que se añadirá a la operación de lectura. Los comentarios aparecen en la salida del Generador de perfiles de base de datos. Valor | ||
| La estrategia de análisis que se debe utilizar al manejar documentos que no coincidan con el esquema esperado. Esta opción acepta los siguientes valores:
| ||
| Si establece la | ||
| Clave de configuración de MongoClientFactory. | ||
| Especifica una canalización de agregación personalizada que se aplicará a la colección antes de enviar los datos a Spark. Una lista de documentos se parece a lo siguiente: Los pipelines de agregación personalizados deben ser compatibles con la estrategia de particionamiento. Por ejemplo, las etapas de agregación como | ||
| Especifica si se debe permitir el almacenamiento en disco al ejecutar la agregación. | ||
| Prefijo de configuración de flujo de cambios. Consulte | ||
|
| ||
| Especifica un esquema parcial de tipos de campo conocidos que se utilizará al inferir el esquema de la colección. Para obtener más información sobre la |
Cambiar configuración de flujo
Puedes configurar las siguientes propiedades al leer un flujo de cambios desde MongoDB:
Nombre de la propiedad | Descripción |
|---|---|
| Determina qué valores devuelve tu flujo de cambios en las operaciones de actualización. La configuración por defecto devuelve las diferencias entre el documento original y el documento actualizado. La configuración Para más información sobre cómo funciona esta opción de flujo de cambios, consulta la guía del manual del servidor de MongoDB Búsqueda de documento completo para la operación de actualización. Predeterminado: "por defecto" |
| Número máximo de particiones en las que el conector de Spark divide cada micro-lote. Los trabajadores de Spark pueden procesar estas particiones en paralelo. ADVERTENCIA: Especificar un valor mayor a |
| Especifica si se debe publicar el documento modificado o el documento completo del flujo de cambios.
Esta configuración anula la configuración Por defecto: |
| Especifica cómo el conector se inicia cuando no hay ningún offset disponible. Esta configuración acepta los siguientes valores:
|
| Determina si se debe incluir la imagen previa de los documentos modificados en la salida del flujo de cambios.
Por defecto: |
Especificando propiedades en connection.uri
Si utiliza SparkConf para especificar cualquiera de las configuraciones anteriores, puede incluirlas en la configuración connection.uri o enumerarlas individualmente.
El siguiente ejemplo de código muestra cómo especificar la base de datos, la colección y la preferencia de lectura como parte de la configuración connection.uri:
spark.mongodb.read.connection.uri=mongodb://127.0.0.1/myDB.myCollection?readPreference=primaryPreferred
Para mantener el connection.uri más breve y hacer que la configuración sea más fácil de leer, puedes especificarlos individualmente en su lugar:
spark.mongodb.read.connection.uri=mongodb://127.0.0.1/ spark.mongodb.read.database=myDB spark.mongodb.read.collection=myCollection
Importante
Si se especifica una configuración tanto en el connection.uri como en una línea independiente, la configuración connection.uri tiene prioridad. Por ejemplo, en la siguiente configuración, la base de datos de conexión es foobar, porque es el valor en la opción connection.uri:
spark.mongodb.read.connection.uri=mongodb://127.0.0.1/foobar spark.mongodb.read.database=bar
Especificando múltiples colecciones en la propiedad collection
Se pueden especificar varias colecciones en la propiedad de configuración del flujo de cambios collection separando los nombres de las colecciones con una coma. No agregue un espacio entre las colecciones a menos que el espacio forme parte del nombre de la colección.
Especifica varias colecciones como se muestra en el siguiente ejemplo:
... .option("spark.mongodb.collection", "collectionOne,collectionTwo")
Si un nombre de colección es ' * ', o si el nombre incluye una coma o una barra invertida (\), debes colocar un carácter de escape como se indica a continuación:
Si el nombre de una colección utilizada en la opción de configuración
collectioncontiene una coma, el Spark Connector la tratará como dos colecciones diferentes. Para evitar esto, debes escapar la coma precediéndola con una barra invertida (\). Escape una colección llamada "my,collection" de la siguiente manera:"my\,collection" Si el nombre de una colección utilizada en tu opción de configuración de
collectiones “*”, el Spark Connector lo interpreta como una especificación para escanear todas las colecciones. Para evitar esto, deben escapar el asterisco anteponiéndole una barra invertida (\). Escapa una colección con el nombre "*" de la siguiente manera:"\*" Si el nombre de una colección usada en tu opción de configuración
collectioncontiene una barra invertida (\), el Spark Connector trata la barra invertida como un carácter de escape, lo que podría cambiar la forma en que interpreta el valor. Para evitar esto, debes escapar la barra invertida precediéndola con otra barra invertida. Escapa una colección llamada "\collection" de la siguiente manera:"\\collection" Nota
Al especificar el nombre de la colección como un literal de string en Java, hay que escapar cada barra invertida con otra más. Por ejemplo, escapa una colección llamada "\collection" de la siguiente manera:
"\\\\collection"
Puedes transmitir desde todas las colecciones en la base de datos pasando un asterisco (*) como string para el nombre de la colección.
Especifica todas las colecciones como se muestra en el siguiente ejemplo:
... .option("spark.mongodb.collection", "*")
Si creas una colección mientras transmites desde todas las colecciones, la nueva colección se incluye automáticamente en la transmisión.
Puedes descartar colecciones en cualquier momento mientras transmites desde varias colecciones.
Importante
Inferir el Esquema con Múltiples Colecciones
Si establece la opción change.stream.publish.full.document.only en true, Spark Connector infiere el esquema de un DataFrame utilizando el esquema de los documentos escaneados.
La inferencia de esquemas ocurre al inicio de la transmisión y no toma en cuenta las colecciones que se crean durante la transmisión.
Al hacer transmisión desde varias colecciones y deducir el esquema, el conector toma muestras de cada colección de forma secuencial. La transmisión de un gran número de colecciones puede provocar que la inferencia del esquema tenga un rendimiento notablemente más lento. Este impacto en el rendimiento ocurre solo al inferir el esquema.