$out toma los documentos devueltos por la pipeline de agregación y los guarda en una colección especificada. El operador $out debe ser la etapa final en el pipeline de agregación. En Atlas Data Federation, puedes utilizar $out para guardar datos desde cualquiera de los instancias federadas de base de datos admitidas o varias instancias federadas de base de datos admitidas cuando utilices consultas federadas en cualquiera de las siguientes:
Clúster de Atlas namespace
AWS S3 buckets con permisos de lectura y guardado
Contenedores de almacenamiento de blobs de Azure con permisos de lectura y escritura
Google Cloud Storage (GCS)
Debes conectarte a tu instancia federada de base de datos para usar $out.
Permisos requeridos
Debe tener:
Una instancia de base de datos federada configurada para un bucket S3 con permisos de lectura y escritura o s3:PutObject permisos.
Un usuario de MongoDB con el rol atlasAdmin o un rol personalizado con el
outToS3privilegio.
Debe tener:
Una instancia federada de base de datos configurada para Azure Blob Storage con un Rol de Azure que tiene permisos de lectura y escritura.
Un usuario de MongoDB con el rol atlasAdmin o un rol personalizado con el
outToAzureprivilegio.
Debe tener:
Una instancia de base de datos federada configurada para un depósito de Google Cloud Storage con acceso a una cuenta de servicio de GCP.
Un usuario de MongoDB con el rol atlasAdmin o un rol personalizado con el
outToGCPprivilegio.
Nota
Para usar $out para guardar en una colección de una base de datos diferente en el mismo clúster de Atlas, el clúster de Atlas debe estar en la versión 7.0 de MongoDB o posterior.
Debe ser un usuario de base de datos con uno de los siguientes roles:
Un rol personalizado con los siguientes privilegios:
Sintaxis
1 { 2 "$out": { 3 "s3": { 4 "bucket": "<bucket-name>", 5 "region": "<aws-region>", 6 "filename": "<file-name>", 7 "format": { 8 "name": "<file-format>", 9 "maxFileSize": "<file-size>", 10 "maxRowGroupSize": "<row-group-size>", 11 "columnCompression": "<compression-type>" 12 }, 13 "errorMode": "stop"|"continue" 14 } 15 } 16 }
1 { 2 "$out": { 3 "azure": { 4 "serviceURL": "<storage-account-url>", 5 "containerName": "<container-name>", 6 "region": "<azure-region>", 7 "filename": "<file-name>", 8 "format": { 9 "name": "<file-format>", 10 "maxFileSize": "<file-size>", 11 "maxRowGroupSize": "<row-group-size>", 12 "columnCompression": "<compression-type>" 13 }, 14 "errorMode": "stop"|"continue" 15 } 16 } 17 }
1 { 2 "$out": { 3 "gcs": { 4 "bucket": "<bucket-name>", 5 "region": "<aws-region>", 6 "filename": "<file-name>", 7 "format": { 8 "name": "<file-format>", 9 "maxFileSize": "<file-size>", 10 "maxRowGroupSize": "<row-group-size>", 11 "columnCompression": "<compression-type>" 12 }, 13 "errorMode": "stop"|"continue" 14 } 15 } 16 }
1 { 2 "$out": { 3 "atlas": { 4 "projectId": "<atlas-project-ID>", 5 "clusterName": "<atlas-cluster-name>", 6 "db": "<atlas-database-name>", 7 "coll": "<atlas-collection-name>" 8 } 9 } 10 }
Campos
Campo | Tipo | Descripción | Necesidad | ||||
|---|---|---|---|---|---|---|---|
| Objeto | Ubicación para guardar los documentos desde el pipeline de agregación. | Requerido | ||||
| string | Nombre del bucket S3 donde se escribirán los documentos procedentes del pipeline de agregación. La llamada generada a S3 inserta un Por ejemplo, si establece | Requerido | ||||
| string | Nombre de la región AWS en la que se hospeda el bucket. Si se omite, utiliza la configuración de la instancia federada de base de datos para determinar la región donde se aloja el | Opcional | ||||
| string | Nombre del archivo al que se guardarán los documentos de la pipeline de agregación. El nombre de archivo puede ser constante o creado dinámicamente a partir de los campos de los documentos que lleguen a la etapa $out. Cualquier expresión de nombre de archivo que proporciones debe evaluarse a un tipo de dato IMPORTANTE: Si hay archivos en S3 con el mismo nombre y ruta que los archivos recién generados, $out sobrescribe los archivos existentes con los archivos recién generados. La llamada generada a S3 inserta un Por ejemplo, si establece | Requerido | ||||
| Objeto | Detalles del archivo en S3. | Requerido | ||||
s3.format.name | enum | Formato del archivo en S.3 El valor puede ser uno de los siguientes:
1 Para este formato, $out escribe los datos en formato MongoDB Extended JSON. Para obtener más información, consulta Limitaciones. | Requerido | ||||
s3.format.maxFileSize | bytes | Tamaño máximo del archivo BSON sin comprimir en S3. Cuando se convierte de BSON a su formato preferido, el archivo de salida resultante puede ser más pequeño (por ejemplo, al convertir a Parquet) o más grande (por ejemplo, al convertir a CSV). Si un documento es mayor que
Si se omite, es por defecto Cuando se alcanza el límite de tamaño del archivo actual, Atlas Data Federation crea un nuevo archivo en S.3 Añade un Por ejemplo, | Opcional | ||||
s3.format.maxRowGroupSize | string | Compatible únicamente con el formato de archivo Parquet. Tamaño máximo del grupo de filas que se usa al escribir en el archivo Parquet. Si se omite, el valor predeterminado es | Opcional | ||||
s3.format.columnCompression | string | Compatible únicamente con el formato de archivo Parquet. Tipo de compresión a aplicar para comprimir los datos dentro de un archivo Parquet al formatear el archivo Parquet. Valores válidos:
Si se omite, es por defecto Para obtener más información, consulte Formatos de datos admitidos. | Opcional | ||||
| enum | Especifica cómo debe proceder Atlas Data Federation si hay errores durante el procesamiento de un documento. Por ejemplo, si Atlas Data Federation encuentra un arreglo en un documento cuando Atlas Data Federation escribe en un archivo CSV, Atlas Data Federation usa este valor para determinar si debe o no omitir el documento y procesar otros documentos. Los valores válidos son:
Si se omite, es por defecto | Opcional |
Campo | Tipo | Descripción | Necesidad | ||||
|---|---|---|---|---|---|---|---|
| Objeto | Ubicación para guardar los documentos desde el pipeline de agregación. | Requerido | ||||
| string | URL de la cuenta de almacenamiento Azure en la que escribir documentos desde el pipeline de agregación. | Requerido | ||||
| string | Nombre del contenedor Azure Blob Storage en el que se escribirán documentos desde la pipeline de agregación. | Requerido | ||||
| string | Nombre de la región Azure que hospeda el contenedor de Blob Storage. | Requerido | ||||
| string | Nombre del archivo en el que guardar documentos a partir de la pipeline de agregación. Acepta un valor constante o valores que evaluan a | Requerido | ||||
| Objeto | Detalles del archivo en Azure Blob Storage. | Requerido | ||||
azure.format.name | enum | Formato del archivo en Azure Blob Storage. El valor puede ser uno de los siguientes:
1 Para este formato, $out escribe los datos en formato MongoDB Extended JSON. Para obtener más información, consulta Limitaciones. | Requerido | ||||
azure.format.maxFileSize | bytes | Tamaño máximo del documento BSON sin comprimir en Azure Blob Storage. Al convertir de BSON a tu formato preferido, el archivo de salida resultante podría ser más pequeño (por ejemplo, al convertir a Parquet) o más grande (por ejemplo, al convertir a CSV). Si un documento es mayor que
Si se omite, es por defecto Cuando se alcanza el límite de tamaño del archivo actual, Atlas Data Federation crea un nuevo archivo en S.3 Añade un Por ejemplo, | Opcional | ||||
azure.format.maxRowGroupSize | string | Compatible únicamente con el formato de archivo Parquet. Tamaño máximo del grupo de filas que se usa al escribir en el archivo Parquet. Si se omite, el valor predeterminado es | Opcional | ||||
azure.format.columnCompression | string | Compatible únicamente con el formato de archivo Parquet. Tipo de compresión a aplicar para comprimir los datos dentro de un archivo Parquet al formatear el archivo Parquet. Valores válidos:
Si se omite, es por defecto Para obtener más información, consulte Formatos de datos admitidos. | Opcional | ||||
| enum | Especifica cómo debe proceder Atlas Data Federation cuando encuentra un error durante el procesamiento de un documento. Los valores válidos son:
Si se omite, es por defecto Para más información, consulte Errores. | Opcional |
Campo | Tipo | Descripción | Necesidad | |
|---|---|---|---|---|
| Objeto | Ubicación para guardar los documentos desde el pipeline de agregación. | Requerido | |
| string | Nombre del bucket de Google Cloud Storage en el que se guardarán los documentos provenientes del pipeline de agregación. La llamada generada a Google Cloud inserta un Por ejemplo, si establece | Requerido | |
| string | Nombre de la región AWS en la que se hospeda el bucket. Si se omite, utiliza la configuración de la instancia federada de base de datos para determinar la región donde se aloja el | Opcional | |
| string | Nombre del archivo donde se escribirán los documentos del flujo de trabajo de agregación. El nombre de archivo puede ser constante o crearse dinámicamente a partir de los campos de los documentos que llegan a la etapa $out. Cualquier expresión de nombre de archivo que proporcione debe evaluarse como un La llamada generada a Google Cloud Storage inserta un Por ejemplo, si establece | Requerido | |
| Objeto | Detalles del archivo en Google Cloud almacenamiento. | Requerido | |
gcs.format.name | enum | Formato del archivo en Google Cloud Storage. El valor puede ser uno de los siguientes:
1 Para este formato, $out escribe los datos en formato MongoDB Extended JSON. Para obtener más información, consulta Limitaciones. | Requerido |
Campo | Tipo | Descripción | Necesidad |
|---|---|---|---|
| Objeto | Ubicación para guardar los documentos desde el pipeline de agregación. | Requerido |
| string | Nombre del cluster Atlas. | Requerido |
| string | Nombre de la colección en el clúster Atlas. | Requerido |
| string | Nombre de la base de datos en el clúster Atlas que contiene la colección. | Requerido |
| string | Identificador único del proyecto que contiene el clúster de Atlas. El ID del grupo debe ser el ID del Proyecto que contenga tu instancia de base de datos federada. Si se omite, se utilizará por defecto el ID del Proyecto que contiene la instancia federada de base de datos. | Opcional |
opciones
Opción | Tipo | Descripción | Necesidad | |
|---|---|---|---|---|
| booleano | Bandera para ejecutar operaciones de agregación en segundo plano. Si se omite, el valor por defecto es Utiliza esta opción si deseas enviar otras consultas nuevas sin esperar a que se completen las consultas en curso o desconectar la conexión de tu instancia federada de base de datos mientras las consultas continúan ejecutándose en segundo plano. | Opcional |
Ejemplos
Crear un nombre de archivo
Los siguientes ejemplos muestran $out las sintaxis para crear dinámicamente un nombre de archivo a partir de una string constante o de los campos del mismo o de diferentes tipos de datos en los documentos que llegan a la etapa $out.
Ejemplo de string simple
Ejemplo
Quieres guardar 1 GiB de datos como archivos BSON comprimidos en un bucket S3 llamado my-s3-bucket.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "s3": { 4 "bucket": "my-s3-bucket", 5 "filename": "big_box_store/", 6 "format": { 7 "name": "bson.gz" 8 } 9 } 10 } 11 }
Se omite el s3.region y, por lo tanto, Atlas Data Federation determina la región donde se aloja el bucket llamado my-s3-bucket a partir de la configuración de almacenamiento. $out escribe cinco archivos BSON comprimidos:
Los primeros 200 MiB de datos a un archivo que $out nombra
big_box_store/1.bson.gz.El valor
s3.filenamefunciona como constante en cada nombre de archivo. Este valor no depende de ningún campo ni valor del documento.Su
s3.filenametermina con un delimitador, por lo que Atlas Data Federation agrega el contador después de la constante.Si no terminaba con un delimitador, Atlas Data Federation habría agregado un
.entre la constante y el contador, comobig_box_store.1.bson.gzDebido a que no cambió el tamaño máximo de archivo utilizando
s3.format.maxFileSize, Atlas Data Federation usa el valor predeterminado de 200 MiB.
Los segundos 200 MiB de datos a un nuevo archivo que $out nombra
big_box_store/2.bson.gz.Tres archivos más que $out nombra del
big_box_store/3.bson.gzalbig_box_store/5.bson.gz.
Campo único de documentos
Ejemplo
Deseas guardar 90 MiB de datos en archivos JSON en un bucket S3 llamado my-s3-bucket.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "s3": { 4 "bucket": "my-s3-bucket", 5 "region": "us-east-1", 6 "filename": {"$toString": "$saleDate"}, 7 "format": { 8 "name": "json", 9 "maxFileSize": "100MiB" 10 } 11 } 12 } 13 }
$out escribe 90 MiB de datos en archivos JSON en la raíz del bucket. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo utilizando el valor saleDate de los documentos convertido en una string.
Varios campos de documentos
Ejemplo
Quieres guardar 176 MiB de datos como archivos BSON en un bucket S3 llamado my-s3-bucket.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "s3": { 4 "bucket": "my-s3-bucket", 5 "region": "us-east-1", 6 "filename": { 7 "$concat": [ 8 "persons/", 9 "$name", "/", 10 "$uniqueId", "/" 11 ] 12 }, 13 "format": { 14 "name": "bson", 15 "maxFileSize": "200MiB" 16 } 17 } 18 } 19 }
$out escribe 176 MiB de datos en archivos BSON. Para nombrar cada archivo, $out concatena:
Una string constante
persons/y, de los documentos:El valor string del campo
name,Una barra diagonal (
/),El valor de la string del campo
uniqueId, yUna barra diagonal (
/).
Cada archivo BSON contiene todos los documentos con los mismos valores de name y uniqueId. $out nombra cada archivo utilizando los valores de name y uniqueId de los documentos.
Varios tipos de campos de documentos
Ejemplo
Deseas guardar 154 MiB de datos como archivos comprimidos JSON en un bucket S3 llamado my-s3-bucket.
Considera la siguiente sintaxis $out:
1 { 2 "$out": { 3 "s3": { 4 "bucket": "my-s3-bucket", 5 "region": "us-east-1", 6 "filename": { 7 "$concat": [ 8 "big-box-store/", 9 { 10 "$toString": "$storeNumber" 11 }, "/", 12 { 13 "$toString": "$saleDate" 14 }, "/", 15 "$partId", "/" 16 ] 17 }, 18 "format": { 19 "name": "json.gz", 20 "maxFileSize": "200MiB" 21 } 22 } 23 } 24 }
$out escribe 154 MiB de datos en archivos JSON comprimidos, donde cada archivo contiene todos los documentos con los mismos storeNumber saleDate partId valores, y. Para nombrar cada archivo, $out concatena:
Un valor de cadena constante de
big-box-store/,Un valor string que representa la identificación única de una tienda perteneciente al campo
storeNumber.Una barra diagonal (
/),Un valor de cadena de la fecha del campo
saleDate,Una barra diagonal (
/),Un valor de string del identificador de parte del campo
partId, yUna barra diagonal (
/).
Crear un nombre de archivo
Los siguientes ejemplos muestran $out las sintaxis para crear dinámicamente un nombre de archivo a partir de una string constante o de los campos del mismo o de diferentes tipos de datos en los documentos que llegan a la etapa $out.
Ejemplo de string simple
Ejemplo
Se desea guardar 1 GiB de datos como archivos BSON comprimidos en una cuenta de almacenamiento Azure mystorageaccount y un contenedor llamado my-container.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "azure": { 4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/", 5 "container": "my-container", 6 "filename": "big_box_store/", 7 "format": { 8 "name": "bson.gz" 9 } 10 } 11 } 12 }
Se omite el y,azure.region por lo tanto, Atlas Data Federation determina la región donde está alojado el contenedor llamado a my-container partir de la configuración de almacenamiento. $out escribe cinco archivos BSON comprimidos:
Los primeros 200 MiB de datos a un archivo que $out nombra
big_box_store/1.bson.gz.El valor
azure.filenamefunciona como constante en cada nombre de archivo. Este valor no depende de ningún campo ni valor del documento.Su
azure.filenametermina con un delimitador, por lo que Atlas Data Federation agrega el contador después de la constante.Si no terminaba con un delimitador, Atlas Data Federation habría agregado un
.entre la constante y el contador, comobig_box_store.1.bson.gzDebido a que no cambió el tamaño máximo de archivo utilizando
azure.format.maxFileSize, Atlas Data Federation usa el valor predeterminado de 200 MiB.
Los segundos 200 MiB de datos a un nuevo archivo que $out nombra
big_box_store/2.bson.gz.Tres archivos más que $out nombra del
big_box_store/3.bson.gzalbig_box_store/5.bson.gz.
Campo único de documentos
Ejemplo
Se desea guardar MiB 90 de datos en archivos JSON en un contenedor de Azure Blob Storage my-container llamado.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "azure": { 4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/", 5 "container": "my-container", 6 "region": "eastus2", 7 "filename": {"$toString": "$saleDate"}, 8 "format": { 9 "name": "json", 10 "maxFileSize": "100MiB" 11 } 12 } 13 } 14 }
$out escribe 90 MiB de datos en archivos JSON en la raíz del contenedor. Cada archivo JSON contiene todos los documentos con el mismo saleDate valor. $out nombra cada archivo utilizando el valor de los documentos, saleDate convertido a una cadena.
Varios campos de documentos
Ejemplo
Quieres guardar 176 MiB de datos como archivos BSON en un contenedor de Azure Blob Almacenamiento my-container llamado.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "azure": { 4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/", 5 "container": "my-container", 6 "region": "eastus2", 7 "filename": { 8 "$concat": [ 9 "persons/", 10 "$name", "/", 11 "$uniqueId", "/" 12 ] 13 }, 14 "format": { 15 "name": "bson", 16 "maxFileSize": "200MiB" 17 } 18 } 19 } 20 }
$out escribe 176 MiB de datos en archivos BSON. Para nombrar cada archivo, $out concatena:
Una string constante
persons/y, de los documentos:El valor string del campo
name,Una barra diagonal (
/),El valor de la string del campo
uniqueId, yUna barra diagonal (
/).
Cada archivo BSON contiene todos los documentos con los mismos valores de name y uniqueId. $out nombra cada archivo utilizando los valores de name y uniqueId de los documentos.
Varios tipos de campos de documentos
Ejemplo
Desea escribir 154 MiB de datos como archivos JSON comprimidos en un contenedor de Azure Blob Storage my-container llamado.
Considera la siguiente sintaxis $out:
1 { 2 "$out": { 3 "azure": { 4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/", 5 "container": "my-container", 6 "region": "eastus2", 7 "filename": { 8 "$concat": [ 9 "big-box-store/", 10 { 11 "$toString": "$storeNumber" 12 }, "/", 13 { 14 "$toString": "$saleDate" 15 }, "/", 16 "$partId", "/" 17 ] 18 }, 19 "format": { 20 "name": "json.gz", 21 "maxFileSize": "200MiB" 22 } 23 } 24 } 25 }
$out escribe 154 MiB de datos en archivos JSON comprimidos, donde cada archivo contiene todos los documentos con los mismos storeNumber saleDate partId valores, y. Para nombrar cada archivo, $out concatena:
Un valor de cadena constante de
big-box-store/,Un valor string que representa la identificación única de una tienda perteneciente al campo
storeNumber.Una barra diagonal (
/),Un valor de cadena de la fecha del campo
saleDate,Una barra diagonal (
/),Un valor de string del identificador de parte del campo
partId, yUna barra diagonal (
/).
Crear un nombre de archivo
Los siguientes ejemplos muestran $out las sintaxis para crear dinámicamente un nombre de archivo a partir de una string constante o de los campos del mismo o de diferentes tipos de datos en los documentos que llegan a la etapa $out.
Ejemplo de string simple
Ejemplo
Desea escribir 1 GiB de datos como archivos BSON comprimidos en un depósito de Google Cloud Storage my-gcs-bucket llamado.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "gcs": { 4 "bucket": "my-gcs-bucket", 5 "filename": "big_box_store/", 6 "format": { 7 "name": "bson.gz" 8 } 9 } 10 } 11 }
Se omite el gcs.region y, por lo tanto, Atlas Data Federation determina la región donde se aloja el bucket llamado my-gcs-bucket a partir de la configuración de almacenamiento. $out escribe cinco archivos BSON comprimidos:
Los primeros 200 MiB de datos a un archivo que $out nombra
big_box_store/1.bson.gz.El valor
gcs.filenamefunciona como constante en cada nombre de archivo. Este valor no depende de ningún campo ni valor del documento.Su
gcs.filenametermina con un delimitador, por lo que Atlas Data Federation agrega el contador después de la constante.Si no terminaba con un delimitador, Atlas Data Federation habría agregado un
.entre la constante y el contador, comobig_box_store.1.bson.gzDebido a que no cambió el tamaño máximo de archivo utilizando
gcs.format.maxFileSize, Atlas Data Federation usa el valor predeterminado de 200 MiB.
Los segundos 200 MiB de datos a un nuevo archivo que $out nombra
big_box_store/2.bson.gz.Tres archivos más que $out nombra del
big_box_store/3.bson.gzalbig_box_store/5.bson.gz.
Campo único de documentos
Ejemplo
Desea escribir 90 MiB de datos en archivos JSON en un depósito de Google Cloud Storage my-gcs-bucket llamado.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "gcs": { 4 "bucket": "my-gcs-bucket", 5 "region": "us-central1", 6 "filename": {"$toString": "$saleDate"}, 7 "format": { 8 "name": "json", 9 "maxFileSize": "100MiB" 10 } 11 } 12 } 13 }
$out escribe 90 MiB de datos en archivos JSON en la raíz del bucket. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo utilizando el valor saleDate de los documentos convertido en una string.
Varios campos de documentos
Ejemplo
Quieres guardar 176 MiB de datos como archivos BSON en un bucket de Google Cloud almacenamiento llamado my-gcs-bucket.
Usando la siguiente sintaxis $out :
1 { 2 "$out": { 3 "gcs": { 4 "bucket": "my-gcs-bucket", 5 "region": "us-central1", 6 "filename": { 7 "$concat": [ 8 "persons/", 9 "$name", "/", 10 "$uniqueId", "/" 11 ] 12 }, 13 "format": { 14 "name": "bson", 15 "maxFileSize": "200MiB" 16 } 17 } 18 } 19 }
$out escribe 176 MiB de datos en archivos BSON. Para nombrar cada archivo, $out concatena:
Una string constante
persons/y, de los documentos:El valor string del campo
name,Una barra diagonal (
/),El valor de la string del campo
uniqueId, yUna barra diagonal (
/).
Cada archivo BSON contiene todos los documentos con los mismos valores de name y uniqueId. $out nombra cada archivo utilizando los valores de name y uniqueId de los documentos.
Varios tipos de campos de documentos
Ejemplo
Quieres guardar 154 MiB de datos como archivos comprimidos JSON en un bucket de Google Cloud Almacenamiento llamado my-gcs-bucket.
Considera la siguiente sintaxis $out:
1 { 2 "$out": { 3 "gcs": { 4 "bucket": "my-gcs-bucket", 5 "region": "us-central1", 6 "filename": { 7 "$concat": [ 8 "big-box-store/", 9 { 10 "$toString": "$storeNumber" 11 }, "/", 12 { 13 "$toString": "$saleDate" 14 }, "/", 15 "$partId", "/" 16 ] 17 }, 18 "format": { 19 "name": "json.gz", 20 "maxFileSize": "200MiB" 21 } 22 } 23 } 24 }
$out escribe 154 MiB de datos en archivos JSON comprimidos, donde cada archivo contiene todos los documentos con los mismos storeNumber saleDate partId valores, y. Para nombrar cada archivo, $out concatena:
Un valor de cadena constante de
big-box-store/,Un valor string que representa la identificación única de una tienda perteneciente al campo
storeNumber.Una barra diagonal (
/),Un valor de cadena de la fecha del campo
saleDate,Una barra diagonal (
/),Un valor de string del identificador de parte del campo
partId, yUna barra diagonal (
/).
Guardar en la colección en Atlas Clúster
Esta sintaxis $out envía los datos agregados a una colección sampleDB.mySampleData en el clúster Atlas nombrado myTestCluster. La sintaxis no especifica un ID del grupo; $out utiliza el ID del Proyecto que contiene tu instancia de base de datos federada.
Ejemplo
1 { 2 "$out": { 3 "atlas": { 4 "clusterName": "myTestCluster", 5 "db": "sampleDB", 6 "coll": "mySampleData" 7 } 8 } 9 }
Ejecutar una query en segundo plano
El siguiente ejemplo muestra la sintaxis $out para ejecutar una canalización de agregación que finaliza con la etapa $out en segundo plano.
Ejemplo
db.runCommand({ "aggregate": "my-collection", "pipeline": [ { "$out": { "s3": { "bucket": "my-s3-bucket", "filename": { "$toString": "$saleDate" } "format": { "name": "json" } } } } ], { "background" : true } })
$out escribe archivos JSON en la raíz del bucket en segundo plano. Cada archivo JSON contiene todos los documentos con el mismo valor saleDate $out nombra cada archivo usando el valor saleDate de los documentos convertido en una string.
Ejemplo
db.runCommand({ "aggregate": "my-collection", "pipeline": [ { "$out": { "azure": { "serviceURL": "http://mystorageaccount.blob.core.windows.net/", "container": "my-container", "filename": {"$toString": "$saleDate"}, "format": { "name": "json" } } } } ], { "background" : true } })
$out escribe archivos JSON en la raíz del contenedor de Azure Blob Storage en segundo plano. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo utilizando el valor saleDate de los documentos convertido en una string.
Ejemplo
db.runCommand({ "aggregate": "my-collection", "pipeline": [ { "$out": { "gcs": { "bucket": "my-gcs-bucket", "filename": { "$toString": "$saleDate" } "format": { "name": "json" } } } } ], { "background" : true } })
$out escribe archivos JSON en la raíz del bucket en segundo plano. Cada archivo JSON contiene todos los documentos con el mismo valor saleDate $out nombra cada archivo usando el valor saleDate de los documentos convertido en una string.
Ejemplo
db.runCommand({ "aggregate": "my-collection", "pipeline": [ { "$out": { "atlas": { "clusterName": "myTestCluster", "db": "sampleDB", "coll": "mySampleData" } } } ], { background: true } })
$out escribe a sampleDB.mySampleData colección en el clúster Atlas llamado myTestCluster en segundo plano.
Limitaciones
Tipo de datos de cadena
Atlas Data Federation interpreta las cadenas vacías ("") como valores null al analizar nombres de archivos. Si quieres que Atlas Data Federation genere nombres de archivo analizables, debes envolver las referencias de campo que podrían tener null valores usando $convert con un valor de string vacía onNull.
Ejemplo
Este ejemplo muestra cómo manejar valores nulos en el campo year al crear un nombre de archivo a partir del valor del campo.
1 { 2 "$out": { 3 "s3": { 4 "bucket": "my-s3-bucket", 5 "region": "us-east-1", 6 "filename": { 7 "$concat": [ 8 "big-box-store/", 9 { 10 "$convert": { 11 "input": "$year", 12 "to": "string", 13 "onNull": "" 14 } 15 }, "/" 16 ] 17 }, 18 "format": { 19 "name": "json.gz", 20 "maxFileSize": "200MiB" 21 } 22 } 23 } 24 }
Número de campos únicos
Al escribir en formato de archivo CSV, TSV o Parquet, Atlas Data Federation no admite más de 32000 campos únicos.
Formato de archivo CSV y TSV
Al escribir en formato CSV o TSV, Atlas Data Federation no admite los siguientes tipos de datos en los documentos:
Arreglos
DBPointer
JavaScript
Código JavaScript con alcance
Tipo de dato mínimo o máximo de clave
En un archivo CSV, Atlas Data Federation representa los documentos anidados mediante la notación de punto (.). Por ejemplo, Atlas Data Federation escribe { x: { a: 1, b: 2 } } de la siguiente manera en el archivo CSV:
x.a,x.b 1,2
Atlas Data Federation representa todos los demás tipos de datos como cadenas. Por lo tanto, los tipos de datos que MongoDB lee del archivo CSV podrían no coincidir con los tipos de datos de los documentos BSON originales desde los que se escribieron.
Formato de archivo Parquet
Para Parquet, Atlas Data Federation lee los campos con valores nulos o indefinidos como faltantes, ya que Parquet no distingue entre valores nulos o indefinidos y faltantes. Si bien Atlas Data Federation admite todos los tipos de datos, para los tipos de datos BSON que no tienen un equivalente directo en Parquet, como JavaScript, expresiones regulares, etc., realiza lo siguiente:
Elige una representación que permite volver a leer el archivo Parquet resultante mediante una herramienta que no sea MongoDB.
Almacena un esquema MongoDB en los metadatos clave/valor del archivo Parquet para que Atlas Data Federation pueda reconstruir el documento BSON original con los tipos de datos correctos si Atlas Data Federation vuelve a leer el archivo Parquet.
Ejemplo
Considere los siguientes documentos BSON:
{ "clientId": 102, "phoneNumbers": ["123-4567", "234-5678"], "clientInfo": { "name": "Taylor", "occupation": "teacher" } } { "clientId": "237", "phoneNumbers" ["345-6789"] "clientInfo": { "name": "Jordan" } }
Si guardas los documentos BSON mencionados anteriormente en formato Parquet utilizando $out a S3, el esquema del archivo Parquet para los documentos BSON se parecería al siguiente:
message root { optional group clientId { optional int32 int; optional binary string; (STRING) } optional group phoneNumbers (LIST) { repeated group list { optional binary element (STRING); } } optional group clientInfo { optional binary name (STRING); optional binary occupation (STRING); } }
Tus datos Parquet en S3 se verían similares a los siguientes:
1 clientId: 2 .int = 102 3 phoneNumbers: 4 .list: 5 ..element = "123-4567" 6 .list: 7 ..element = "234-5678" 8 clientInfo: 9 .name = "Taylor" 10 .occupation = "teacher" 11 12 clientId: 13 .string = "237" 14 phoneNumbers: 15 .list: 16 ..element = "345-6789" 17 clientInfo: 18 .name = "Jordan"
El ejemplo anterior demuestra cómo Atlas Data Federation gestiona los tipos de datos complejos:
Atlas Data Federation mapea documentos en todos los niveles a un grupo Parquet.
Atlas Data Federation codifica arreglos usando el tipo lógico
LISTy la estructura obligatoria de lista o elemento de tres niveles. Para obtener más información, consulta Listas.Atlas Data Federation asigna campos BSON polimórficos a un grupo de varias columnas de un solo tipo, ya que Parquet no admite columnas polimórficas. Atlas Data Federation asigna al grupo el nombre del campo BSON. En el ejemplo anterior, Atlas Data Federation crea un grupo Parquet llamado
clientIdpara el campo polimórficoclientIdcon dos hijos llamados y,intstringrespectivamente.
Tipo de datos de cadena
Atlas Data Federation interpreta las cadenas vacías ("") como valores null al analizar nombres de archivos. Si quieres que Atlas Data Federation genere nombres de archivo analizables, debes envolver las referencias de campo que podrían tener null valores usando $convert con un valor de string vacía onNull.
Ejemplo
Este ejemplo muestra cómo manejar valores nulos en el campo year al crear un nombre de archivo a partir del valor del campo.
1 { 2 "$out": { 3 "azure": { 4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/", 5 "container": "my-container", 6 "region": "eastus2", 7 "filename": { 8 "$concat": [ 9 "big-box-store/", 10 { 11 "$convert": { 12 "input": "$year", 13 "to": "string", 14 "onNull": "" 15 } 16 }, "/" 17 ] 18 }, 19 "format": { 20 "name": "json.gz", 21 "maxFileSize": "200MiB" 22 } 23 } 24 } 25 }
Número de campos únicos
Al escribir en formato de archivo CSV, TSV o Parquet, Atlas Data Federation no admite más de 32000 campos únicos.
Formato de archivo CSV y TSV
Al escribir en formato CSV o TSV, Atlas Data Federation no admite los siguientes tipos de datos en los documentos:
Arreglos
DBPointer
JavaScript
Código JavaScript con alcance
Tipo de dato mínimo o máximo de clave
En un archivo CSV, Atlas Data Federation representa los documentos anidados mediante la notación de punto (.). Por ejemplo, Atlas Data Federation escribe { x: { a: 1, b: 2 } } de la siguiente manera en el archivo CSV:
x.a,x.b 1,2
Atlas Data Federation representa todos los demás tipos de datos como cadenas. Por lo tanto, los tipos de datos que MongoDB lee del archivo CSV podrían no coincidir con los tipos de datos de los documentos BSON originales desde los que se escribieron.
Formato de archivo Parquet
Para Parquet, Atlas Data Federation lee los campos con valores nulos o indefinidos como faltantes, ya que Parquet no distingue entre valores nulos o indefinidos y faltantes. Si bien Atlas Data Federation admite todos los tipos de datos, para los tipos de datos BSON que no tienen un equivalente directo en Parquet, como JavaScript, expresiones regulares, etc., realiza lo siguiente:
Elige una representación que permite volver a leer el archivo Parquet resultante mediante una herramienta que no sea MongoDB.
Almacena un esquema MongoDB en los metadatos clave/valor del archivo Parquet para que Atlas Data Federation pueda reconstruir el documento BSON original con los tipos de datos correctos si Atlas Data Federation vuelve a leer el archivo Parquet.
Ejemplo
Considere los siguientes documentos BSON:
{ "clientId": 102, "phoneNumbers": ["123-4567", "234-5678"], "clientInfo": { "name": "Taylor", "occupation": "teacher" } } { "clientId": "237", "phoneNumbers" ["345-6789"] "clientInfo": { "name": "Jordan" } }
Si escribe los documentos BSON anteriores en formato Parquet mediante $out en Azure, el esquema de archivo Parquet para sus documentos BSON se verá similar al siguiente:
message root { optional group clientId { optional int32 int; optional binary string (STRING); } optional group phoneNumbers (LIST) { repeated group list { optional binary element (STRING); } } optional group clientInfo { optional binary name (STRING); optional binary occupation (STRING); } }
Sus datos Parquet en Azure Blob almacenamiento tendrían un aspecto similar al siguiente:
1 clientId: 2 .int = 102 3 phoneNumbers: 4 .list: 5 ..element = "123-4567" 6 .list: 7 ..element = "234-5678" 8 clientInfo: 9 .name = "Taylor" 10 .occupation = "teacher" 11 12 clientId: 13 .string = "237" 14 phoneNumbers: 15 .list: 16 ..element = "345-6789" 17 clientInfo: 18 .name = "Jordan"
El ejemplo anterior demuestra cómo Atlas Data Federation gestiona los tipos de datos complejos:
Atlas Data Federation mapea documentos en todos los niveles a un grupo Parquet.
Atlas Data Federation codifica arreglos usando el tipo lógico
LISTy la estructura obligatoria de lista o elemento de tres niveles. Para obtener más información, consulta Listas.Atlas Data Federation asigna campos BSON polimórficos a un grupo de varias columnas de un solo tipo, ya que Parquet no admite columnas polimórficas. Atlas Data Federation asigna al grupo el nombre del campo BSON. En el ejemplo anterior, Atlas Data Federation crea un grupo Parquet llamado
clientIdpara el campo polimórficoclientIdcon dos hijos llamados y,intstringrespectivamente.
Tipo de datos de cadena
Atlas Data Federation interpreta las cadenas vacías ("") como valores null al analizar nombres de archivos. Si quieres que Atlas Data Federation genere nombres de archivo analizables, debes envolver las referencias de campo que podrían tener null valores usando $convert con un valor de string vacía onNull.
Ejemplo
Este ejemplo muestra cómo manejar valores nulos en el campo year al crear un nombre de archivo a partir del valor del campo.
1 { 2 "$out": { 3 "gcs": { 4 "bucket": "my-gcs-bucket", 5 "region": "us-central1", 6 "filename": { 7 "$concat": [ 8 "big-box-store/", 9 { 10 "$convert": { 11 "input": "$year", 12 "to": "string", 13 "onNull": "" 14 } 15 }, "/" 16 ] 17 }, 18 "format": { 19 "name": "json.gz", 20 "maxFileSize": "200MiB" 21 } 22 } 23 } 24 }
Número de campos únicos
Al escribir en formato de archivo CSV, TSV o Parquet, Atlas Data Federation no admite más de 32000 campos únicos.
Formato de archivo CSV y TSV
Al escribir en formato CSV o TSV, Atlas Data Federation no admite los siguientes tipos de datos en los documentos:
Arreglos
DBPointer
JavaScript
Código JavaScript con alcance
Tipo de dato mínimo o máximo de clave
En un archivo CSV, Atlas Data Federation representa los documentos anidados mediante la notación de punto (.). Por ejemplo, Atlas Data Federation escribe { x: { a: 1, b: 2 } } de la siguiente manera en el archivo CSV:
x.a,x.b 1,2
Atlas Data Federation representa todos los demás tipos de datos como cadenas. Por lo tanto, los tipos de datos que MongoDB lee del archivo CSV podrían no coincidir con los tipos de datos de los documentos BSON originales desde los que se escribieron.
Formato de archivo Parquet
Para Parquet, Atlas Data Federation lee los campos con valores nulos o indefinidos como faltantes, ya que Parquet no distingue entre valores nulos o indefinidos y faltantes. Si bien Atlas Data Federation admite todos los tipos de datos, para los tipos de datos BSON que no tienen un equivalente directo en Parquet, como JavaScript, expresiones regulares, etc., realiza lo siguiente:
Elige una representación que permite volver a leer el archivo Parquet resultante mediante una herramienta que no sea MongoDB.
Almacena un esquema MongoDB en los metadatos clave/valor del archivo Parquet para que Atlas Data Federation pueda reconstruir el documento BSON original con los tipos de datos correctos si Atlas Data Federation vuelve a leer el archivo Parquet.
Ejemplo
Considere los siguientes documentos BSON:
{ "clientId": 102, "phoneNumbers": ["123-4567", "234-5678"], "clientInfo": { "name": "Taylor", "occupation": "teacher" } } { "clientId": "237", "phoneNumbers" ["345-6789"] "clientInfo": { "name": "Jordan" } }
Si escribes los documentos BSON anteriores en formato Parquet usando $out to GCP, el esquema del archivo Parquet para tus documentos BSON se vería similar al siguiente:
message root { optional group clientId { optional int32 int; optional binary string; (STRING) } optional group phoneNumbers (LIST) { repeated group list { optional binary element (STRING); } } optional group clientInfo { optional binary name (STRING); optional binary occupation (STRING); } }
Sus datos de Parquet en Google Cloud Storage se verían similares a los siguientes:
1 clientId: 2 .int = 102 3 phoneNumbers: 4 .list: 5 ..element = "123-4567" 6 .list: 7 ..element = "234-5678" 8 clientInfo: 9 .name = "Taylor" 10 .occupation = "teacher" 11 12 clientId: 13 .string = "237" 14 phoneNumbers: 15 .list: 16 ..element = "345-6789" 17 clientInfo: 18 .name = "Jordan"
El ejemplo anterior demuestra cómo Atlas Data Federation gestiona los tipos de datos complejos:
Atlas Data Federation mapea documentos en todos los niveles a un grupo Parquet.
Atlas Data Federation codifica arreglos usando el tipo lógico
LISTy la estructura obligatoria de lista o elemento de tres niveles. Para obtener más información, consulta Listas.Atlas Data Federation asigna campos BSON polimórficos a un grupo de varias columnas de un solo tipo, ya que Parquet no admite columnas polimórficas. Atlas Data Federation asigna al grupo el nombre del campo BSON. En el ejemplo anterior, Atlas Data Federation crea un grupo Parquet llamado
clientIdpara el campo polimórficoclientIdcon dos hijos llamados y,intstringrespectivamente.
Esta sección se aplica sólo a las ofertas de almacenamiento de los proveedores de servicios en la nube.
Salida de errores
Atlas Data Federation utiliza el mecanismo de gestión de errores descrito a continuación para documentos que ingresan a la etapa $out y no se pueden registrar por uno de los siguientes motivos:
El
s3.filenameno evalúa un valor de cadena.El
s3.filenamese evalúa como un archivo al que no se puede escribir.El valor se establece
s3.format.namecsvtsven,,csv.gzo,tsv.gzy el documento transferido a contiene tipos de datos no compatibles con el formato de archivo especificado. Para obtener una lista completa de los tipos de datos no compatibles,$outconsulte Formatos de archivo CSV y TSV.
Si encuentra uno de los errores anteriores al procesar un documento, Atlas Data Federation escribe en los siguientes tres archivos de error especiales en $out la s3://<bucket-name>/atlas-data-lake-<correlation-id>/ ruta:
Nombre del archivo de error | Descripción |
|---|---|
out-error-docs/<i>.json | Atlas Data Federation guarda el documento que tuvo un error en este archivo. |
out-error-index/<i>.json | Atlas Data Federation guarda un mensaje de error en este archivo. Cada mensaje de error contiene una descripción del error y un valor de índice |
resumen-de-errores-de-salida.json | Atlas Data Federation escribe un único documento resumen para cada tipo de error encontrado durante una operación de agregación en este archivo. Cada documento resumen contiene una descripción del tipo de error y un recuento del número de documentos que encontraron ese tipo de error. |
Ejemplo
Este ejemplo muestra cómo generar archivos de error usando $out en una instancia federada de base de datos.
La siguiente pipeline de agregación ordena los documentos en la colección del conjunto de datos de muestra analytics.customers por fecha de nacimiento del cliente de forma descendente e intenta escribir los campos _id, name y accounts de los tres clientes más jóvenes en el archivo denominado youngest-customers.csv en el depósito S3 denominado customer-data.
db.customers.aggregate([ { $sort: { "birthdate" : -1 } }, { $unset: [ "username", "address", "email", "tier_and_details", "birthdate" ] }, { $limit: 3 }, { $out: { "s3": { "bucket": "customer-data", "filename": "youngest-customers", "region":"us-east-2", "format": { "name": "csv" } } } ])
Dado que accounts es un campo de matriz, encuentra un error al intentar escribir un$out documento s3.format.name csv en. Para gestionar estos errores, Atlas Data Federation escribe en los siguientes tres archivos de errores:
La siguiente salida muestra el primero de tres documentos escritos en el archivo
out-error-docs/1.json:s3://datos-del-cliente/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-docs/1.json{ "_id" : {"$oid":"5ca4bbcea2dd94ee58162ba7"}, "name": "Marc Cain", "accounts": [{"$numberInt":"980440"}, {"$numberInt":"626807"}, {"$numberInt":"313907"}, {"$numberInt":"218101"}, {"$numberInt":"157495"}, {"$numberInt":"736396"}], } La siguiente salida muestra el primero de tres mensajes de error escritos en el archivo
out-error-index/1.json. El camponempieza en 0 y se incrementa con cada error escrito en el archivo.s3://datos-del-cliente/atlas-data-lake-1773b3d5e2a7f3858530daf5/índice-de-error-de-salida/1.json{ "n" : {"$numberInt": "0"}, "error" : "field accounts is of unsupported type array" } La siguiente salida muestra el resumen de errores documentado en el archivo
out-error-summary. El campocountrepresenta el número de documentos que se pasaron a$outque encontraron un error debido al campo de arregloaccounts.s3://customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-summary.json{ "errorType": "field accounts is of unsupported type array", "count": {"$numberInt":"3"} }
Atlas Data Federation utiliza el mecanismo de gestión de errores descrito a continuación para documentos que ingresan a la etapa $out y no se pueden registrar por uno de los siguientes motivos:
El
azure.filenameno evalúa un valor de cadena.El
azure.filenamese evalúa como un archivo al que no se puede escribir.El valor se establece
azure.format.namecsvtsven,,csv.gzo,tsv.gzy el documento transferido a contiene tipos de datos no compatibles con el formato de archivo especificado. Para obtener una lista completa de los tipos de datos no compatibles,$outconsulte Formatos de archivo CSV y TSV.
Si encuentra uno de los errores anteriores al procesar un documento, Atlas Data Federation escribe en los siguientes tres archivos de error especiales en $out la http://<storage-account>.blob.core.windows.net/<container-name>/atlas-data-lake-<correlation-id>/ ruta:
Nombre del archivo de error | Descripción |
|---|---|
out-error-docs/<i>.json | Atlas Data Federation guarda el documento que encontró un error en este archivo.
|
out-error-index/<i>.json | Atlas Data Federation escribe un mensaje de error en este archivo. Cada mensaje de error contiene una descripción del error y un valor de índice
|
resumen-de-errores-de-salida.json | Atlas Data Federation escribe un único documento resumen para cada tipo de error encontrado durante una operación de agregación en este archivo. Cada documento resumen contiene una descripción del tipo de error y un recuento del número de documentos que encontraron ese tipo de error. |
Ejemplo
Este ejemplo muestra cómo generar archivos de error usando $out en una instancia federada de base de datos.
La siguiente pipeline de agregación ordena los documentos en la colección del dataset de muestra analytics.customers por fecha de nacimiento del cliente descendente e intenta guardar los campos _id, name y accounts de los tres clientes más jóvenes en el archivo llamado youngest-customers.csv en el contenedor Azure Blob almacenamiento llamado customer-data.
db.customers.aggregate([ { $sort: { "birthdate" : -1 } }, { $unset: [ "username", "address", "email", "tier_and_details", "birthdate" ] }, { $limit: 3 }, { $out: { "azure": { "serviceURL": "https://myserviceaccount.blob.core.windows.net" "container": "customer-data", "filename": "youngest-customers", "region":"eastus2", "format": { "name": "csv" } } } ])
Dado que accounts es un campo de matriz, encuentra un error al intentar escribir un$out documento azure.format.name csv en. Para gestionar estos errores, Atlas Data Federation escribe en los siguientes tres archivos de errores:
La siguiente salida muestra el primero de tres documentos escritos en el archivo
out-error-docs/1.json:http://mystorageaccount.blob.core.windows.net/customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-docs/1.json{ "_id" : {"$oid":"5ca4bbcea2dd94ee58162ba7"}, "name": "Marc Cain", "accounts": [{"$numberInt":"980440"}, {"$numberInt":"626807"}, {"$numberInt":"313907"}, {"$numberInt":"218101"}, {"$numberInt":"157495"}, {"$numberInt":"736396"}], } La siguiente salida muestra el primero de tres mensajes de error escritos en el archivo
out-error-index/1.json. El camponempieza en 0 y se incrementa con cada error escrito en el archivo.http://mystorageaccount.blob.core.windows.net/customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-index/1.json{ "n" : {"$numberInt": "0"}, "error" : "field accounts is of unsupported type array" } La siguiente salida muestra el resumen de errores documentado en el archivo
out-error-summary. El campocountrepresenta el número de documentos que se pasaron a$outque encontraron un error debido al campo de arregloaccounts.http://mystorageaccount.blob.core.windows.net/customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-summary.json{ "errorType": "field accounts is of unsupported type array", "count": {"$numberInt":"3"} }
Atlas Data Federation utiliza el mecanismo de gestión de errores descrito a continuación para documentos que ingresan a la etapa $out y no se pueden registrar por uno de los siguientes motivos:
El
gcs.filenameno evalúa un valor de cadena.El
gcs.filenamese evalúa como un archivo al que no se puede escribir.El valor se establece
gcs.format.namecsvtsven,,csv.gzo,tsv.gzy el documento transferido a contiene tipos de datos no compatibles con el formato de archivo especificado. Para obtener una lista completa de los tipos de datos no compatibles,$outconsulte Formatos de archivo CSV y TSV.
Si encuentra uno de los errores anteriores al procesar un documento, Atlas Data Federation escribe en los siguientes tres archivos de error especiales en $out la gcs://<bucket-name>/atlas-data-lake-<correlation-id>/ ruta:
Nombre del archivo de error | Descripción |
|---|---|
out-error-docs/<i>.json | Atlas Data Federation guarda el documento que tuvo un error en este archivo. |
out-error-index/<i>.json | Atlas Data Federation guarda un mensaje de error en este archivo. Cada mensaje de error contiene una descripción del error y un valor de índice |
resumen-de-errores-de-salida.json | Atlas Data Federation escribe un único documento resumen para cada tipo de error encontrado durante una operación de agregación en este archivo. Cada documento resumen contiene una descripción del tipo de error y un recuento del número de documentos que encontraron ese tipo de error. |
Ejemplo
Este ejemplo muestra cómo generar archivos de error usando $out en una instancia federada de base de datos.
El siguiente pipeline de agregación ordena los documentos de la colección del conjunto de datos de muestra analytics.customers por fecha de nacimiento del cliente de forma descendente e intenta escribir los campos _id, name y accounts de los tres clientes más jóvenes en el archivo llamado youngest-customers.csv en el bucket de Google Cloud almacenamiento llamado customer-data.
db.customers.aggregate([ { $sort: { "birthdate" : -1 } }, { $unset: [ "username", "address", "email", "tier_and_details", "birthdate" ] }, { $limit: 3 }, { $out: { "gcs": { "bucket": "customer-data", "filename": "youngest-customers", "region":"us-central1", "format": { "name": "csv" } } } ])
Dado que accounts es un campo de matriz, encuentra un error al intentar escribir un$out documento gcs.format.name csv en. Para gestionar estos errores, Atlas Data Federation escribe en los siguientes tres archivos de errores:
La siguiente salida muestra el primero de tres documentos escritos en el archivo
out-error-docs/1.json:gcs://cliente-data/atlas-lago de datos-1773b3d5e2a7f3858530daf5/out-error-docs/1.json{ "_id" : {"$oid":"5ca4bbcea2dd94ee58162ba7"}, "name": "Marc Cain", "accounts": [{"$numberInt":"980440"}, {"$numberInt":"626807"}, {"$numberInt":"313907"}, {"$numberInt":"218101"}, {"$numberInt":"157495"}, {"$numberInt":"736396"}], } La siguiente salida muestra el primero de tres mensajes de error escritos en el archivo
out-error-index/1.json. El camponempieza en 0 y se incrementa con cada error escrito en el archivo.gcs://datos-del-cliente/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-index/1.json{ "n" : {"$numberInt": "0"}, "error" : "field accounts is of unsupported type array" } La siguiente salida muestra el resumen de errores documentado en el archivo
out-error-summary. El campocountrepresenta el número de documentos que se pasaron a$outque encontraron un error debido al campo de arregloaccounts.gcs://datos-del-cliente/atlas-data-lake-1773b3d5e2a7f3858530daf5/resumen-de-errores-de-salida.json{ "errorType": "field accounts is of unsupported type array", "count": {"$numberInt":"3"} }
Esta sección solo se aplica al almacenamiento del proveedor de servicios en la nube.