Página inicial do Docs → Visualizar & analisar dados → MongoDB Spark Connector

Perguntas frequentes

Como posso obter a localidade dos dados?

Para qualquer implantação do MongoDB, o Spark Connector define o local preferencial para que um DataFrame ou Dataset esteja onde os dados estão.

Para um sistema não fragmentado, ele define o local preferencial como o(s) nome(s) de host do autônomo ou do conjunto de réplicas.
Para um sistema fragmentado, ele define o local preferencial como o(s) nome(s) de host dos fragmentos.

Para promover a localidade dos dados, recomendamos realizar a seguinte ação:

Certifique-se de que há um Spark Worker em um dos hosts para sistemas não fragmentados ou um por shard para sistemas fragmentados.
Use uma preferência de leitura nearest para ler a partir do mongod local.
Para um cluster fragmentado, tenha um mongos nos mesmos nós e use a configuração localThreshold para se conectar ao mongos mais próximo. Para particionar os dados por fragmento, use a configuraçãoShardedPartitioner .

Como resolvo o erro `Unrecognized pipeline stage name` ?

Em sistemas do MongoDB com versões mistas do mongod, é possível obter um erro Unrecognized pipeline stage name: '$sample' . Para mitigar esta situação, configure explicitamente o particionador para usar e defina o esquema ao usar DataFrames.

Como posso usar o mTLS para autenticação?

Para usar o mTLS, inclua as seguintes opções ao executar spark-submit:

--driver-java-options -Djavax.net.ssl.trustStore=<path to your truststore.jks file> \
--driver-java-options -Djavax.net.ssl.trustStorePassword=<your truststore password> \
--driver-java-options -Djavax.net.ssl.keyStore=<path to your keystore.jks file> \
--driver-java-options -Djavax.net.ssl.keyStorePassword=<your keystore password> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.trustStore=<path to your truststore.jks file> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.trustStorePassword=<your truststore password> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.keyStore=<path to your keystore.jks file> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.keyStorePassword=<your keystore password> \

Como posso compartilhar uma instância do MongoClient entre threads?

O MongoConnector inclui um cache que permite que os trabalhadores compartilhem um único MongoClient entre threads. Para especificar o período de tempo para manter um MongoClient disponível, inclua a opção mongodb.keep_alive_ms ao executar spark-submit:

--driver-java-options -Dmongodb.keep_alive_ms=<number of milliseconds to keep MongoClient available>

Por padrão, esta propriedade tem um valor de 5000.

Observação

Como o cache é configurado antes que a configuração Spark esteja disponível, você deve usar uma propriedade do sistema para configurá-lo.

← Opções de configuração de gravação de streaming

Notas de versão →

Perguntas frequentes.css-134mg1q{-webkit-align-self:center;-ms-flex-item-align:center;align-self:center;padding:0 10px;visibility:hidden;}.css-6vrlzm{border-radius:0!important;display:initial!important;margin:initial!important;}.css-1l4s55v{margin-top:-175px;position:absolute;padding-bottom:2px;}