Make the MongoDB docs better! We value your opinion. Share your feedback for a chance to win $100.
MongoDB Branding Shape
Click here >
Docs Menu

$out Etapa (Atlas Data Federation)

$out toma los documentos devueltos por el pipeline de agregación y los escribe en una colección específica. El $out operador debe ser el último paso en la pipeline de agregación. En Atlas Data Federation, puedes utilizar $out para guardar datos de cualquiera de las instancias federadas de base de datos admitidas o de múltiples instancias federadas de base de datos admitidas al utilizar queries federados en cualquiera de los siguientes:

  • Clúster de Atlas namespace

  • AWS S3 buckets con permisos de lectura y guardar

  • Azure contenedores de almacenamiento Blob con permisos de lectura y escritura

  • Google Cloud Storage (GCS)

Debes conectarte a tu instancia federada de base de datos para usar $out.

Debe tener:

  • Una instancia federada de base de datos configurada para un bucket S3 con permisos de lectura y escritura o permisos s3:PutObject.

  • Un usuario de MongoDB con el rol atlasAdmin o un rol personalizado con el privilegio outToS3.

Debe tener:

  • Una instancia federada de base de datos configurada para Azure Blob Storage con un Rol de Azure que tiene permisos de lectura y escritura.

  • Un usuario de MongoDB con el rol atlasAdmin o un rol personalizado con el privilegio outToAzure.

Debe tener:

  • Una instancia federada de base de datos configurada para un bucket de Google Cloud Storage con acceso a una cuenta de servicio de GCP.

  • Un usuario de MongoDB con el rol atlasAdmin o un rol personalizado con el privilegio outToGCP.

Nota

Para usar $out para guardar en una colección de una base de datos diferente en el mismo clúster de Atlas, el clúster de Atlas debe estar en la versión 7.0 de MongoDB o posterior.

Debe ser un usuario de base de datos con uno de los siguientes roles:

1{
2 "$out": {
3 "s3": {
4 "bucket": "<bucket-name>",
5 "region": "<aws-region>",
6 "filename": "<file-name>",
7 "format": {
8 "name": "<file-format>",
9 "maxFileSize": "<file-size>",
10 "maxRowGroupSize": "<row-group-size>",
11 "columnCompression": "<compression-type>"
12 },
13 "errorMode": "stop"|"continue"
14 }
15 }
16}
1{
2 "$out": {
3 "azure": {
4 "serviceURL": "<storage-account-url>",
5 "containerName": "<container-name>",
6 "region": "<azure-region>",
7 "filename": "<file-name>",
8 "format": {
9 "name": "<file-format>",
10 "maxFileSize": "<file-size>",
11 "maxRowGroupSize": "<row-group-size>",
12 "columnCompression": "<compression-type>"
13 },
14 "errorMode": "stop"|"continue"
15 }
16 }
17}
1{
2 "$out": {
3 "gcs": {
4 "bucket": "<bucket-name>",
5 "region": "<aws-region>",
6 "filename": "<file-name>",
7 "format": {
8 "name": "<file-format>",
9 "maxFileSize": "<file-size>",
10 "maxRowGroupSize": "<row-group-size>",
11 "columnCompression": "<compression-type>"
12 },
13 "errorMode": "stop"|"continue"
14 }
15 }
16}
1{
2 "$out": {
3 "atlas": {
4 "projectId": "<atlas-project-ID>",
5 "clusterName": "<atlas-cluster-name>",
6 "db": "<atlas-database-name>",
7 "coll": "<atlas-collection-name>"
8 }
9 }
10}
Campo
Tipo
Descripción
Necesidad

s3

Objeto

Ubicación para guardar los documentos desde el pipeline de agregación.

Requerido

s3.bucket

string

Nombre del bucket S3 en el que se escribirán los documentos del pipeline de agregación.

La llamada generada a S3 inserta un / entre s3.bucket y s3.filename. No agregues un / a tu string s3.bucket.

Por ejemplo, si estableces s3.bucket en myBucket y s3.filename en myPath/myData, Atlas Data Federation escribe la ubicación de salida de la siguiente manera:

s3://myBucket/myPath/myData.[n].json

Requerido

s3.region

string

Nom de la région AWS où se trouve le bucket. Si omis, utilise la configuration de la instancia federada de base de datos para determinar la región où le s3.bucket spécifié est hébergé.

Opcional

s3.filename

string

Nombre del archivo al que se guardarán los documentos de la pipeline de agregación. El nombre de archivo puede ser constante o creado dinámicamente a partir de los campos de los documentos que lleguen a la etapa $out. Cualquier expresión de nombre de archivo que proporciones debe evaluarse a un tipo de dato string.

IMPORTANTE: si hay archivos en S3 con el mismo nombre y ruta que los archivos generados recientemente, $out sobrescribe los archivos existentes con los archivos recién generados.

La llamada generada a S3 inserta un / entre s3.bucket y s3.filename. No anteponga un / a tu string s3.filename.

Por ejemplo, si estableces s3.filename en myPath/myData y s3.bucket en myBucket, Atlas Data Federation escribe la ubicación de salida de la siguiente manera:

s3://myBucket/myPath/myData.[n].json

Requerido

s3.format

Objeto

Detalles del archivo en S3.

Requerido

s3
.format
.name

enum

Formato del archivo en S3. El valor puede ser uno de los siguientes:

  • bson

  • bson.gz

  • csv

  • csv.gz

  • json 1

  • json.gz 1

  • parquet

  • tsv

  • tsv.gz

1 Para este formato, $out escribe los datos en formato MongoDB Extended JSON.

Para obtener más información, consulta Limitaciones.

Requerido

s3
.format
.maxFileSize

bytes

Tamaño máximo del archivo BSON descomprimido en S3. Al convertir de BSON al formato preferido, el archivo de salida resultante podría ser más pequeño (por ejemplo, al convertir a Parquet) o más grande (por ejemplo, al convertir a CSV).

Si un documento es mayor que el maxFileSize, Atlas Data Federation guarda el documento en su propio archivo. Se admiten los siguientes sufijos:

Base 10: escalado en múltiplos de 1.000

  • B

  • KB

  • MB

  • GB

  • TB

  • PB

Base 2: escalado en múltiplos de 1024

  • KiB

  • MiB

  • GiB

  • TiB

  • PiB

Si se omite, es por defecto 200MiB.

Cuando se alcanza el límite de tamaño para el archivo actual, Atlas Data Federation crea un nuevo archivo en S3. Adjunta un 1 antes de la extensión del nombre del archivo para el primer archivo. Para cada archivo posterior, Atlas Data Federation incrementa el número adjunto en uno.

Por ejemplo, <filename>.1.<fileformat> y <filename>.2.<fileformat>.

Opcional

s3
.format
.maxRowGroupSize

string

Solo compatible con el formato de archivo Parquet.

Tamaño máximo del grupo de filas a utilizar al escribir en un archivo Parquet. Si se omite, el valor por defecto es 128 MiB o el valor de s3.format.maxFileSize, lo que sea menor. El valor máximo permitido es 1 GB.

Opcional

s3
.format
.columnCompression

string

Solo compatible con el formato de archivo Parquet.

Tipo de compresión a aplicar para comprimir los datos dentro de un archivo Parquet al formatear el archivo Parquet. Valores válidos:

  • gzip

  • snappy

  • uncompressed

Si se omite, es por defecto snappy.

Para obtener más información, consulte Formatos de datos admitidos.

Opcional

errorMode

enum

Especifica cómo debe proceder Atlas Data Federation si hay errores durante el procesamiento de un documento. Por ejemplo, si Atlas Data Federation encuentra un arreglo en un documento cuando Atlas Data Federation escribe en un archivo CSV, Atlas Data Federation usa este valor para determinar si debe o no omitir el documento y procesar otros documentos. Los valores válidos son:

  • continue saltar el documento y continuar procesando los documentos restantes. Atlas Data Federation también guarda el documento que causó el error en un archivo de error.

    Para más información vea, Errores.

  • stop detenerse en ese punto y no procesar los documentos restantes.

Si se omite, es por defecto continue.

Opcional

Campo
Tipo
Descripción
Necesidad

azure

Objeto

Ubicación para guardar los documentos desde el pipeline de agregación.

Requerido

azure.serviceURL

string

URL de la cuenta de almacenamiento de Azure en la que se escribirán documentos desde la canalización de agregación.

Requerido

azure.containerName

string

Nombre del contenedor de Azure Blob Storage en el que se guardarán los documentos del pipeline de agregación.

Requerido

azure.region

string

Nombre de la región Azure que aloja el contenedor de Blob Storage.

Requerido

azure.filename

string

Nombre del archivo en el que guardar documentos a partir de la pipeline de agregación.

Acepta valores constantes, o valores que se evalúan como string creados dinámicamente a partir de los campos de los documentos que llegan a la etapa $out. Si existen archivos en el almacenamiento Blob de Azure con el mismo nombre y ruta que los archivos recién generados, $out sobrescribe los archivos existentes con los archivos recién generados.

Requerido

azure.format

Objeto

Detalles del archivo en Azure Blob Storage.

Requerido

azure
.format
.name

enum

Formato del archivo en Azure Blob Storage. El valor puede ser uno de los siguientes:

  • bson

  • bson.gz

  • csv

  • csv.gz

  • json 1

  • json.gz 1

  • parquet

  • tsv

  • tsv.gz

1 Para este formato, $out escribe los datos en formato MongoDB Extended JSON.

Para obtener más información, consulta Limitaciones.

Requerido

azure
.format
.maxFileSize

bytes

Tamaño máximo del documento BSON sin comprimir en Azure Blob Storage. Al convertir de BSON al formato preferido, el archivo de salida resultante puede ser más pequeño (por ejemplo, al convertir a Parquet) o más grande (por ejemplo, al convertir a CSV).

Si un documento es mayor que el maxFileSize, Atlas Data Federation guarda el documento en su propio archivo. Se admiten los siguientes sufijos:

Base 10: escalado en múltiplos de 1.000

  • B

  • KB

  • MB

  • GB

  • TB

  • PB

Base 2: escalado en múltiplos de 1024

  • KiB

  • MiB

  • GiB

  • TiB

  • PiB

Si se omite, es por defecto 200MiB.

Cuando se alcanza el límite de tamaño para el archivo actual, Atlas Data Federation crea un nuevo archivo en S3. Adjunta un 1 antes de la extensión del nombre del archivo para el primer archivo. Para cada archivo posterior, Atlas Data Federation incrementa el número adjunto en uno.

Por ejemplo, <filename>.1.<fileformat> y <filename>.2.<fileformat>.

Opcional

azure
.format
.maxRowGroupSize

string

Solo compatible con el formato de archivo Parquet.

Tamaño máximo del grupo de filas a utilizar al escribir en un archivo Parquet. Si se omite, el valor por defecto es 128 MiB o el valor de azure.format.maxFileSize, lo que sea menor. El valor máximo permitido es 1 GB.

Opcional

azure
.format
.columnCompression

string

Solo compatible con el formato de archivo Parquet.

Tipo de compresión a aplicar para comprimir los datos dentro de un archivo Parquet al formatear el archivo Parquet. Valores válidos:

  • gzip

  • snappy

  • uncompressed

Si se omite, es por defecto snappy.

Para obtener más información, consulte Formatos de datos admitidos.

Opcional

errorMode

enum

Especifica cómo debe proceder Atlas Data Federation cuando encuentra un error durante el procesamiento de un documento. Los valores válidos son:

  • continue saltar el documento y continuar procesando los documentos restantes. Atlas Data Federation registra el error en un archivo de errores.

  • stop detenerse sin procesar los documentos restantes. Atlas Data Federation registra el error en un archivo de errores.

Si se omite, es por defecto continue.

Para más información, consulte Errores.

Opcional

Campo
Tipo
Descripción
Necesidad

gcs

Objeto

Ubicación para guardar los documentos desde el pipeline de agregación.

Requerido

gcs.bucket

string

Nombre del bucket de Google Cloud Storage en el que se guardarán los documentos provenientes del pipeline de agregación.

La llamada generada a Google Cloud inserta un / entre gcs.bucket y gcs.filename. No añadas un / a tu string gcs.bucket.

Por ejemplo, si estableces gcs.bucket en myBucket y gcs.filename en myPath/myData, Atlas Data Federation escribe la ubicación de salida de la siguiente manera:

gcs://myBucket/myPath/myData.[n].json

Requerido

gcs.region

string

Nom de la région AWS où se trouve le bucket. Si omis, utilise la configuration de la instancia federada de base de datos para determinar la región où le gcs.bucket spécifié est hébergé.

Opcional

gcs.filename

string

Nombre del archivo en el que se guardarán los documentos desde el pipeline de agregación. El nombre del archivo puede ser constante o creado dinámicamente a partir de los campos de los documentos que llegan a la etapa $out. Cualquier expresión de nombre de archivo que proporcione debe evaluarse como un tipo de datos string. Si hay archivos en Google Cloud **almacenamiento** con el mismo nombre y ruta que los archivos recién generados, $out sobrescribe los archivos existentes con los archivos recién generados.

La llamada generada a Google Cloud Storage inserta un / entre gcs.bucket y gcs.filename. No antepongas un / a tu string gcs.filename.

Por ejemplo, si estableces gcs.filename en myPath/myData y gcs.bucket en myBucket, Atlas Data Federation escribe la ubicación de salida de la siguiente manera:

gcs://myBucket/myPath/myData.[n].json

Requerido

gcs.format

Objeto

Detalles del archivo en Google Cloud almacenamiento.

Requerido

gcs
.format
.name

enum

Formato del archivo en Google Cloud Storage. El valor puede ser uno de los siguientes:

  • bson

  • bson.gz

  • csv

  • csv.gz

  • json 1

  • json.gz 1

  • parquet

  • tsv

  • tsv.gz

1 Para este formato, $out escribe los datos en formato MongoDB Extended JSON.

Para obtener más información, consulta Limitaciones.

Requerido

Campo
Tipo
Descripción
Necesidad

atlas

Objeto

Ubicación para guardar los documentos desde el pipeline de agregación.

Requerido

clusterName

string

Nombre del clúster de Atlas

Requerido

coll

string

Nombre de la colección en el clúster Atlas.

Requerido

db

string

Nombre de la base de datos en el clúster Atlas que contiene la colección.

Requerido

projectId

string

Identificador único del proyecto que contiene el clúster de Atlas. El ID del grupo debe ser el ID del Proyecto que contenga tu instancia de base de datos federada. Si se omite, se utilizará por defecto el ID del Proyecto que contiene la instancia federada de base de datos.

Opcional

Opción
Tipo
Descripción
Necesidad

background

booleano

Bandera para ejecutar operaciones de agregación en segundo plano. Si se omite, el valor por defecto es false. Cuando se establece en true, Atlas Data Federation ejecuta las consultas en segundo plano.

{ "background" : true }

Utiliza esta opción si deseas enviar otras consultas nuevas sin esperar a que se completen las consultas en curso o desconectar la conexión de tu instancia federada de base de datos mientras las consultas continúan ejecutándose en segundo plano.

Opcional

Crear un nombre de archivo

Los siguientes ejemplos muestran $out las sintaxis para crear dinámicamente un nombre de archivo a partir de una string constante o de los campos del mismo o de diferentes tipos de datos en los documentos que llegan a la etapa $out.

Ejemplo

Quieres guardar 1 GiB de datos como archivos comprimidos BSON en un bucket S3 llamado my-s3-bucket.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "s3": {
4 "bucket": "my-s3-bucket",
5 "filename": "big_box_store/",
6 "format": {
7 "name": "bson.gz"
8 }
9 }
10 }
11}

Se omite el s3.region y, por lo tanto, Atlas Data Federation determina la región donde se aloja el bucket llamado my-s3-bucket a partir de la configuración de almacenamiento. $out escribe cinco archivos comprimidos BSON:

  1. Los primeros 200 MiB de datos a un archivo que $out nombra big_box_store/1.bson.gz.

    • El valor de s3.filename sirve como una constante en cada nombre de archivo. Este valor no depende de ningún campo o valor de documento.

    • Tu s3.filename termina con un delimitador, por lo que Atlas Data Federation añade el contador después de la constante.

    • Si no terminaba con un delimitador, Atlas Data Federation habría agregado un . entre la constante y el contador, como big_box_store.1.bson.gz

    • Como no se cambió el tamaño máximo de archivo con s3.format.maxFileSize, Atlas Data Federation utiliza el valor por defecto de 200 MiB.

  2. Los segundos 200 MiB de datos a un nuevo archivo que $out nombra big_box_store/2.bson.gz.

  3. Tres archivos más que $out nombra del big_box_store/3.bson.gz al big_box_store/5.bson.gz.

Ejemplo

Deseas guardar 90 MiB de datos en archivos JSON en un bucket S3 llamado my-s3-bucket.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "s3": {
4 "bucket": "my-s3-bucket",
5 "region": "us-east-1",
6 "filename": {"$toString": "$saleDate"},
7 "format": {
8 "name": "json",
9 "maxFileSize": "100MiB"
10 }
11 }
12 }
13}

$out guarda 90 MiB de datos en archivos JSON en la raíz del bucket. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo utilizando el valor saleDate de los documentos convertido a cadena.

Ejemplo

Tú quieres guardar 176 MiB de datos como archivos BSON en un bucket de S3 llamado my-s3-bucket.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "s3": {
4 "bucket": "my-s3-bucket",
5 "region": "us-east-1",
6 "filename": {
7 "$concat": [
8 "persons/",
9 "$name", "/",
10 "$uniqueId", "/"
11 ]
12 },
13 "format": {
14 "name": "bson",
15 "maxFileSize": "200MiB"
16 }
17 }
18 }
19}

$out escribe 176 MiB de datos en archivos BSON. Para nombrar cada archivo, $out concatena:

  • Una string constante persons/ y, de los documentos:

    • El valor string del campo name,

    • Una barra diagonal (/),

    • El valor de la string del campo uniqueId, y

    • Una barra diagonal (/).

Cada archivo BSON contiene todos los documentos con los mismos valores de name y uniqueId. $out nombra cada archivo usando los valores name y uniqueId de los documentos.

Ejemplo

Quieres guardar 154 MiB de datos como archivos comprimidos JSON en un bucket S3 llamado my-s3-bucket.

Considera la siguiente sintaxis $out:

1{
2 "$out": {
3 "s3": {
4 "bucket": "my-s3-bucket",
5 "region": "us-east-1",
6 "filename": {
7 "$concat": [
8 "big-box-store/",
9 {
10 "$toString": "$storeNumber"
11 }, "/",
12 {
13 "$toString": "$saleDate"
14 }, "/",
15 "$partId", "/"
16 ]
17 },
18 "format": {
19 "name": "json.gz",
20 "maxFileSize": "200MiB"
21 }
22 }
23 }
24}

$out escribe 154 MiB de datos en archivos JSON comprimidos, donde cada archivo contiene todos los documentos con los mismos valores de storeNumber, saleDate y partId. Para nombrar cada archivo, $out concatena:

  • Un valor de cadena constante de big-box-store/,

  • Un valor string que representa la identificación única de una tienda perteneciente al campo storeNumber.

  • Una barra diagonal (/),

  • Un valor de string de la fecha del campo saleDate,

  • Una barra diagonal (/),

  • Un valor de string del identificador de parte del campo partId, y

  • Una barra diagonal (/).

Crear un nombre de archivo

Los siguientes ejemplos muestran $out las sintaxis para crear dinámicamente un nombre de archivo a partir de una string constante o de los campos del mismo o de diferentes tipos de datos en los documentos que llegan a la etapa $out.

Ejemplo

Se desea guardar 1 GiB de datos como archivos comprimidos BSON a una cuenta de almacenamiento Azure mystorageaccount y un contenedor llamado my-container.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "azure": {
4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/",
5 "container": "my-container",
6 "filename": "big_box_store/",
7 "format": {
8 "name": "bson.gz"
9 }
10 }
11 }
12}

Se omite el azure.region, por lo que Atlas Data Federation determina la región donde se encuentra el contenedor llamado my-container a partir de la configuración del almacenamiento. $out guarda cinco archivos BSON comprimidos:

  1. Los primeros 200 MiB de datos a un archivo que $out nombra big_box_store/1.bson.gz.

    • El valor de azure.filename sirve como una constante en cada nombre de archivo. Este valor no depende de ningún campo o valor de documento.

    • Tu azure.filename termina con un delimitador, por lo que Atlas Data Federation añade el contador después de la constante.

    • Si no terminaba con un delimitador, Atlas Data Federation habría agregado un . entre la constante y el contador, como big_box_store.1.bson.gz

    • Como no se cambió el tamaño máximo de archivo con azure.format.maxFileSize, Atlas Data Federation utiliza el valor por defecto de 200 MiB.

  2. Los segundos 200 MiB de datos a un nuevo archivo que $out nombra big_box_store/2.bson.gz.

  3. Tres archivos más que $out nombra del big_box_store/3.bson.gz al big_box_store/5.bson.gz.

Ejemplo

Deseas guardar 90 MiB de datos en archivos JSON en un contenedor de almacenamiento de blobs de Azure llamado my-container.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "azure": {
4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/",
5 "container": "my-container",
6 "region": "eastus2",
7 "filename": {"$toString": "$saleDate"},
8 "format": {
9 "name": "json",
10 "maxFileSize": "100MiB"
11 }
12 }
13 }
14}

$out escribe 90 MiB de datos en archivos JSON en la raíz del contenedor. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo utilizando el valor saleDate de los documentos convertido en string.

Ejemplo

Quiere guardar 176 MiB de datos como archivos BSON en un contenedor de Azure Blob Storage con el nombre my-container.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "azure": {
4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/",
5 "container": "my-container",
6 "region": "eastus2",
7 "filename": {
8 "$concat": [
9 "persons/",
10 "$name", "/",
11 "$uniqueId", "/"
12 ]
13 },
14 "format": {
15 "name": "bson",
16 "maxFileSize": "200MiB"
17 }
18 }
19 }
20}

$out escribe 176 MiB de datos en archivos BSON. Para nombrar cada archivo, $out concatena:

  • Una string constante persons/ y, de los documentos:

    • El valor string del campo name,

    • Una barra diagonal (/),

    • El valor de la string del campo uniqueId, y

    • Una barra diagonal (/).

Cada archivo BSON contiene todos los documentos con los mismos valores de name y uniqueId. $out nombra cada archivo usando los valores name y uniqueId de los documentos.

Ejemplo

Quieres guardar 154 MiB de datos como archivos JSON comprimidos en un contenedor de almacenamiento de blobs de Azure denominado my-container.

Considera la siguiente sintaxis $out:

1{
2 "$out": {
3 "azure": {
4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/",
5 "container": "my-container",
6 "region": "eastus2",
7 "filename": {
8 "$concat": [
9 "big-box-store/",
10 {
11 "$toString": "$storeNumber"
12 }, "/",
13 {
14 "$toString": "$saleDate"
15 }, "/",
16 "$partId", "/"
17 ]
18 },
19 "format": {
20 "name": "json.gz",
21 "maxFileSize": "200MiB"
22 }
23 }
24 }
25}

$out escribe 154 MiB de datos en archivos JSON comprimidos, donde cada archivo contiene todos los documentos con los mismos valores de storeNumber, saleDate y partId. Para nombrar cada archivo, $out concatena:

  • Un valor de cadena constante de big-box-store/,

  • Un valor string que representa la identificación única de una tienda perteneciente al campo storeNumber.

  • Una barra diagonal (/),

  • Un valor de string de la fecha del campo saleDate,

  • Una barra diagonal (/),

  • Un valor de string del identificador de parte del campo partId, y

  • Una barra diagonal (/).

Crear un nombre de archivo

Los siguientes ejemplos muestran $out las sintaxis para crear dinámicamente un nombre de archivo a partir de una string constante o de los campos del mismo o de diferentes tipos de datos en los documentos que llegan a la etapa $out.

Ejemplo

Desea guardar 1 GiB de datos comprimidos como archivos BSON en un bucket de Google Cloud Storage llamado my-gcs-bucket.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "gcs": {
4 "bucket": "my-gcs-bucket",
5 "filename": "big_box_store/",
6 "format": {
7 "name": "bson.gz"
8 }
9 }
10 }
11}

Se omite el gcs.region y, por lo tanto, Atlas Data Federation determina la región donde se aloja el bucket llamado my-gcs-bucket a partir de la configuración de almacenamiento. $out escribe cinco archivos comprimidos BSON:

  1. Los primeros 200 MiB de datos a un archivo que $out nombra big_box_store/1.bson.gz.

    • El valor de gcs.filename sirve como una constante en cada nombre de archivo. Este valor no depende de ningún campo o valor de documento.

    • Tu gcs.filename termina con un delimitador, por lo que Atlas Data Federation añade el contador después de la constante.

    • Si no terminaba con un delimitador, Atlas Data Federation habría agregado un . entre la constante y el contador, como big_box_store.1.bson.gz

    • Como no se cambió el tamaño máximo de archivo con gcs.format.maxFileSize, Atlas Data Federation utiliza el valor por defecto de 200 MiB.

  2. Los segundos 200 MiB de datos a un nuevo archivo que $out nombra big_box_store/2.bson.gz.

  3. Tres archivos más que $out nombra del big_box_store/3.bson.gz al big_box_store/5.bson.gz.

Ejemplo

Desea guardar 90 MiB de datos en archivos JSON en un bucket de Google Cloud almacenamiento llamado my-gcs-bucket.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "gcs": {
4 "bucket": "my-gcs-bucket",
5 "region": "us-central1",
6 "filename": {"$toString": "$saleDate"},
7 "format": {
8 "name": "json",
9 "maxFileSize": "100MiB"
10 }
11 }
12 }
13}

$out guarda 90 MiB de datos en archivos JSON en la raíz del bucket. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo utilizando el valor saleDate de los documentos convertido a cadena.

Ejemplo

Usted desea guardar 176 MiB de datos como archivos BSON en un bucket de Google Cloud Storage llamado my-gcs-bucket.

Usando la siguiente sintaxis $out :

1{
2 "$out": {
3 "gcs": {
4 "bucket": "my-gcs-bucket",
5 "region": "us-central1",
6 "filename": {
7 "$concat": [
8 "persons/",
9 "$name", "/",
10 "$uniqueId", "/"
11 ]
12 },
13 "format": {
14 "name": "bson",
15 "maxFileSize": "200MiB"
16 }
17 }
18 }
19}

$out escribe 176 MiB de datos en archivos BSON. Para nombrar cada archivo, $out concatena:

  • Una string constante persons/ y, de los documentos:

    • El valor string del campo name,

    • Una barra diagonal (/),

    • El valor de la string del campo uniqueId, y

    • Una barra diagonal (/).

Cada archivo BSON contiene todos los documentos con los mismos valores de name y uniqueId. $out nombra cada archivo usando los valores name y uniqueId de los documentos.

Ejemplo

Quieres guardar 154 MiB de datos como archivos comprimidos JSON en un bucket de Google Cloud almacenamiento llamado my-gcs-bucket.

Considera la siguiente sintaxis $out:

1{
2 "$out": {
3 "gcs": {
4 "bucket": "my-gcs-bucket",
5 "region": "us-central1",
6 "filename": {
7 "$concat": [
8 "big-box-store/",
9 {
10 "$toString": "$storeNumber"
11 }, "/",
12 {
13 "$toString": "$saleDate"
14 }, "/",
15 "$partId", "/"
16 ]
17 },
18 "format": {
19 "name": "json.gz",
20 "maxFileSize": "200MiB"
21 }
22 }
23 }
24}

$out escribe 154 MiB de datos en archivos JSON comprimidos, donde cada archivo contiene todos los documentos con los mismos valores de storeNumber, saleDate y partId. Para nombrar cada archivo, $out concatena:

  • Un valor de cadena constante de big-box-store/,

  • Un valor string que representa la identificación única de una tienda perteneciente al campo storeNumber.

  • Una barra diagonal (/),

  • Un valor de string de la fecha del campo saleDate,

  • Una barra diagonal (/),

  • Un valor de string del identificador de parte del campo partId, y

  • Una barra diagonal (/).

Esta sintaxis $out envía los datos agregados a una colección sampleDB.mySampleData en el clúster Atlas nombrado myTestCluster. La sintaxis no especifica un ID del grupo; $out utiliza el ID del Proyecto que contiene tu instancia de base de datos federada.

Ejemplo

1{
2 "$out": {
3 "atlas": {
4 "clusterName": "myTestCluster",
5 "db": "sampleDB",
6 "coll": "mySampleData"
7 }
8 }
9}

El siguiente ejemplo muestra la sintaxis de $out para ejecutar un pipeline de agregación que termina con la etapa $out en segundo plano.

Ejemplo

db.runCommand({
"aggregate": "my-collection",
"pipeline": [
{
"$out": {
"s3": {
"bucket": "my-s3-bucket",
"filename": { "$toString": "$saleDate" }
"format": {
"name": "json"
}
}
}
}
],
{ "background" : true }
})

$out escribe en archivos JSON en la raíz del bucket en segundo plano. Cada archivo JSON contiene todos los documentos con el mismo valor saleDate. $out nombra cada archivo usando el valor saleDate de los documentos convertido a un string.

Ejemplo

db.runCommand({
"aggregate": "my-collection",
"pipeline": [
{
"$out": {
"azure": {
"serviceURL": "http://mystorageaccount.blob.core.windows.net/",
"container": "my-container",
"filename": {"$toString": "$saleDate"},
"format": {
"name": "json"
}
}
}
}
],
{ "background" : true }
})

$out escribe archivos JSON en la raíz del contenedor de Azure Blob Storage en segundo plano. Cada archivo JSON contiene todos los documentos con el mismo valor de saleDate. $out nombra cada archivo usando el valor saleDate de los documentos convertido a una string.

Ejemplo

db.runCommand({
"aggregate": "my-collection",
"pipeline": [
{
"$out": {
"gcs": {
"bucket": "my-gcs-bucket",
"filename": { "$toString": "$saleDate" }
"format": {
"name": "json"
}
}
}
}
],
{ "background" : true }
})

$out escribe en archivos JSON en la raíz del bucket en segundo plano. Cada archivo JSON contiene todos los documentos con el mismo valor saleDate. $out nombra cada archivo usando el valor saleDate de los documentos convertido a un string.

Ejemplo

db.runCommand({
"aggregate": "my-collection",
"pipeline": [
{
"$out": {
"atlas": {
"clusterName": "myTestCluster",
"db": "sampleDB",
"coll": "mySampleData"
}
}
}
],
{ background: true }
})

$out escribe a sampleDB.mySampleData colección en el clúster Atlas llamado myTestCluster en segundo plano.

Atlas Data Federation interpreta las cadenas vacías ("") como valores null al analizar nombres de archivos. Si quieres que Atlas Data Federation genere nombres de archivo analizables, debes envolver las referencias de campo que podrían tener null valores usando $convert con un valor de string vacía onNull.

Ejemplo

Este ejemplo muestra cómo gestionar valores nulos en el campo year al crear un nombre de archivo a partir del valor del campo.

1{
2 "$out": {
3 "s3": {
4 "bucket": "my-s3-bucket",
5 "region": "us-east-1",
6 "filename": {
7 "$concat": [
8 "big-box-store/",
9 {
10 "$convert": {
11 "input": "$year",
12 "to": "string",
13 "onNull": ""
14 }
15 }, "/"
16 ]
17 },
18 "format": {
19 "name": "json.gz",
20 "maxFileSize": "200MiB"
21 }
22 }
23 }
24}

Al escribir en formato de archivo CSV, TSV o Parquet, Atlas Data Federation no admite más de 32000 campos únicos.

Al escribir en formato CSV o TSV, Atlas Data Federation no admite los siguientes tipos de datos en los documentos:

  • Arreglos

  • DBPointer

  • JavaScript

  • Código JavaScript con alcance

  • Tipo de dato mínimo o máximo de clave

En un archivo CSV, Atlas Data Federation representa los documentos anidados mediante la notación de punto (.). Por ejemplo, Atlas Data Federation guarda { x: { a: 1, b: 2 } } como lo siguiente en el archivo CSV:

x.a,x.b
1,2

Atlas Data Federation representa todos los demás tipos de datos como cadenas de texto. Por lo tanto, los tipos de datos en MongoDB leídos desde el archivo CSV pueden no ser los mismos que los tipos de datos en los documentos BSON originales desde los cuales se escribieron los tipos de datos.

Para Parquet, Atlas Data Federation lee los campos que tienen valores nulos o no definidos como faltantes, porque Parquet no distingue entre valores nulos o no definidos y valores faltantes. Aunque Atlas Data Federation admite todos los tipos de datos, para los tipos de datos BSON que no tienen un equivalente directo en Parquet, como JavaScript, expresiones regulares, etc.:

  • Elige una representación que permita que el archivo Parquet resultante pueda leerse con una herramienta ajena a MongoDB.

  • Almacena un esquema de MongoDB en los metadatos clave/valor del archivo Parquet para que Atlas Data Federation pueda reconstruir el documento BSON original con los tipos de datos correctos si Atlas Data Federation vuelve a leer el archivo Parquet.

Ejemplo

Considerar los siguientes documentos BSON:

{
"clientId": 102,
"phoneNumbers": ["123-4567", "234-5678"],
"clientInfo": {
"name": "Taylor",
"occupation": "teacher"
}
}
{
"clientId": "237",
"phoneNumbers" ["345-6789"]
"clientInfo": {
"name": "Jordan"
}
}

Si escribe los documentos BSON anteriores en formato Parquet usando $out a S,3 el esquema del archivo Parquet para sus documentos BSON se vería similar al siguiente:

message root {
optional group clientId {
optional int32 int;
optional binary string; (STRING)
}
optional group phoneNumbers (LIST) {
repeated group list {
optional binary element (STRING);
}
}
optional group clientInfo {
optional binary name (STRING);
optional binary occupation (STRING);
}
}

Tus datos Parquet en S3 se verán similares a los siguientes:

1clientId:
2.int = 102
3phoneNumbers:
4.list:
5..element = "123-4567"
6.list:
7..element = "234-5678"
8clientInfo:
9.name = "Taylor"
10.occupation = "teacher"
11
12clientId:
13.string = "237"
14phoneNumbers:
15.list:
16..element = "345-6789"
17clientInfo:
18.name = "Jordan"

El ejemplo anterior demuestra cómo Atlas Data Federation gestiona los tipos de datos complejos:

  • Atlas Data Federation mapea documentos en todos los niveles a un grupo Parquet.

  • Atlas Data Federation codifica arreglos usando el tipo lógico LIST y la estructura obligatoria de lista o elemento de tres niveles. Para obtener más información, consulta Listas.

  • Atlas Data Federation asigna los campos polimórficos BSON a un grupo de múltiples columnas de un solo tipo porque Parquet no admite columnas polimórficas. Atlas Data Federation nombra el grupo después del campo BSON. En el ejemplo anterior, Atlas Data Federation crea un grupo Parquet llamado clientId para el campo polimórfico llamado clientId con dos elementos secundarios nombrados según sus tipos BSON, int y string.

Atlas Data Federation interpreta las cadenas vacías ("") como valores null al analizar nombres de archivos. Si quieres que Atlas Data Federation genere nombres de archivo analizables, debes envolver las referencias de campo que podrían tener null valores usando $convert con un valor de string vacía onNull.

Ejemplo

Este ejemplo muestra cómo gestionar valores nulos en el campo year al crear un nombre de archivo a partir del valor del campo.

1{
2 "$out": {
3 "azure": {
4 "serviceURL": "http://mystorageaccount.blob.core.windows.net/",
5 "container": "my-container",
6 "region": "eastus2",
7 "filename": {
8 "$concat": [
9 "big-box-store/",
10 {
11 "$convert": {
12 "input": "$year",
13 "to": "string",
14 "onNull": ""
15 }
16 }, "/"
17 ]
18 },
19 "format": {
20 "name": "json.gz",
21 "maxFileSize": "200MiB"
22 }
23 }
24 }
25}

Al escribir en formato de archivo CSV, TSV o Parquet, Atlas Data Federation no admite más de 32000 campos únicos.

Al escribir en formato CSV o TSV, Atlas Data Federation no admite los siguientes tipos de datos en los documentos:

  • Arreglos

  • DBPointer

  • JavaScript

  • Código JavaScript con alcance

  • Tipo de dato mínimo o máximo de clave

En un archivo CSV, Atlas Data Federation representa los documentos anidados mediante la notación de punto (.). Por ejemplo, Atlas Data Federation guarda { x: { a: 1, b: 2 } } como lo siguiente en el archivo CSV:

x.a,x.b
1,2

Atlas Data Federation representa todos los demás tipos de datos como cadenas de texto. Por lo tanto, los tipos de datos en MongoDB leídos desde el archivo CSV pueden no ser los mismos que los tipos de datos en los documentos BSON originales desde los cuales se escribieron los tipos de datos.

Para Parquet, Atlas Data Federation lee los campos que tienen valores nulos o no definidos como faltantes, porque Parquet no distingue entre valores nulos o no definidos y valores faltantes. Aunque Atlas Data Federation admite todos los tipos de datos, para los tipos de datos BSON que no tienen un equivalente directo en Parquet, como JavaScript, expresiones regulares, etc.:

  • Elige una representación que permita que el archivo Parquet resultante pueda leerse con una herramienta ajena a MongoDB.

  • Almacena un esquema de MongoDB en los metadatos clave/valor del archivo Parquet para que Atlas Data Federation pueda reconstruir el documento BSON original con los tipos de datos correctos si Atlas Data Federation vuelve a leer el archivo Parquet.

Ejemplo

Considerar los siguientes documentos BSON:

{
"clientId": 102,
"phoneNumbers": ["123-4567", "234-5678"],
"clientInfo": {
"name": "Taylor",
"occupation": "teacher"
}
}
{
"clientId": "237",
"phoneNumbers" ["345-6789"]
"clientInfo": {
"name": "Jordan"
}
}

Si escribe los documentos BSON anteriores en formato Parquet usando $out en Azure, el esquema del archivo Parquet para sus documentos BSON se vería similar al siguiente:

message root {
optional group clientId {
optional int32 int;
optional binary string (STRING);
}
optional group phoneNumbers (LIST) {
repeated group list {
optional binary element (STRING);
}
}
optional group clientInfo {
optional binary name (STRING);
optional binary occupation (STRING);
}
}

Tus datos Parquet en Azure almacenamiento de blobs se verían similar a lo siguiente:

1clientId:
2.int = 102
3phoneNumbers:
4.list:
5..element = "123-4567"
6.list:
7..element = "234-5678"
8clientInfo:
9.name = "Taylor"
10.occupation = "teacher"
11
12clientId:
13.string = "237"
14phoneNumbers:
15.list:
16..element = "345-6789"
17clientInfo:
18.name = "Jordan"

El ejemplo anterior demuestra cómo Atlas Data Federation gestiona los tipos de datos complejos:

  • Atlas Data Federation mapea documentos en todos los niveles a un grupo Parquet.

  • Atlas Data Federation codifica arreglos usando el tipo lógico LIST y la estructura obligatoria de lista o elemento de tres niveles. Para obtener más información, consulta Listas.

  • Atlas Data Federation asigna los campos polimórficos BSON a un grupo de múltiples columnas de un solo tipo porque Parquet no admite columnas polimórficas. Atlas Data Federation nombra el grupo después del campo BSON. En el ejemplo anterior, Atlas Data Federation crea un grupo Parquet llamado clientId para el campo polimórfico llamado clientId con dos elementos secundarios nombrados según sus tipos BSON, int y string.

Atlas Data Federation interpreta las cadenas vacías ("") como valores null al analizar nombres de archivos. Si quieres que Atlas Data Federation genere nombres de archivo analizables, debes envolver las referencias de campo que podrían tener null valores usando $convert con un valor de string vacía onNull.

Ejemplo

Este ejemplo muestra cómo gestionar valores nulos en el campo year al crear un nombre de archivo a partir del valor del campo.

1{
2 "$out": {
3 "gcs": {
4 "bucket": "my-gcs-bucket",
5 "region": "us-central1",
6 "filename": {
7 "$concat": [
8 "big-box-store/",
9 {
10 "$convert": {
11 "input": "$year",
12 "to": "string",
13 "onNull": ""
14 }
15 }, "/"
16 ]
17 },
18 "format": {
19 "name": "json.gz",
20 "maxFileSize": "200MiB"
21 }
22 }
23 }
24}

Al escribir en formato de archivo CSV, TSV o Parquet, Atlas Data Federation no admite más de 32000 campos únicos.

Al escribir en formato CSV o TSV, Atlas Data Federation no admite los siguientes tipos de datos en los documentos:

  • Arreglos

  • DBPointer

  • JavaScript

  • Código JavaScript con alcance

  • Tipo de dato mínimo o máximo de clave

En un archivo CSV, Atlas Data Federation representa los documentos anidados mediante la notación de punto (.). Por ejemplo, Atlas Data Federation guarda { x: { a: 1, b: 2 } } como lo siguiente en el archivo CSV:

x.a,x.b
1,2

Atlas Data Federation representa todos los demás tipos de datos como cadenas de texto. Por lo tanto, los tipos de datos en MongoDB leídos desde el archivo CSV pueden no ser los mismos que los tipos de datos en los documentos BSON originales desde los cuales se escribieron los tipos de datos.

Para Parquet, Atlas Data Federation lee los campos que tienen valores nulos o no definidos como faltantes, porque Parquet no distingue entre valores nulos o no definidos y valores faltantes. Aunque Atlas Data Federation admite todos los tipos de datos, para los tipos de datos BSON que no tienen un equivalente directo en Parquet, como JavaScript, expresiones regulares, etc.:

  • Elige una representación que permita que el archivo Parquet resultante pueda leerse con una herramienta ajena a MongoDB.

  • Almacena un esquema de MongoDB en los metadatos clave/valor del archivo Parquet para que Atlas Data Federation pueda reconstruir el documento BSON original con los tipos de datos correctos si Atlas Data Federation vuelve a leer el archivo Parquet.

Ejemplo

Considerar los siguientes documentos BSON:

{
"clientId": 102,
"phoneNumbers": ["123-4567", "234-5678"],
"clientInfo": {
"name": "Taylor",
"occupation": "teacher"
}
}
{
"clientId": "237",
"phoneNumbers" ["345-6789"]
"clientInfo": {
"name": "Jordan"
}
}

Si escribe los documentos BSON anteriores en formato Parquet usando $out en GCP, el esquema del archivo Parquet para sus documentos BSON se vería similar al siguiente:

message root {
optional group clientId {
optional int32 int;
optional binary string; (STRING)
}
optional group phoneNumbers (LIST) {
repeated group list {
optional binary element (STRING);
}
}
optional group clientInfo {
optional binary name (STRING);
optional binary occupation (STRING);
}
}

Los datos de Parquet en Google Cloud Storage se verían similares a los siguientes:

1clientId:
2.int = 102
3phoneNumbers:
4.list:
5..element = "123-4567"
6.list:
7..element = "234-5678"
8clientInfo:
9.name = "Taylor"
10.occupation = "teacher"
11
12clientId:
13.string = "237"
14phoneNumbers:
15.list:
16..element = "345-6789"
17clientInfo:
18.name = "Jordan"

El ejemplo anterior demuestra cómo Atlas Data Federation gestiona los tipos de datos complejos:

  • Atlas Data Federation mapea documentos en todos los niveles a un grupo Parquet.

  • Atlas Data Federation codifica arreglos usando el tipo lógico LIST y la estructura obligatoria de lista o elemento de tres niveles. Para obtener más información, consulta Listas.

  • Atlas Data Federation asigna los campos polimórficos BSON a un grupo de múltiples columnas de un solo tipo porque Parquet no admite columnas polimórficas. Atlas Data Federation nombra el grupo después del campo BSON. En el ejemplo anterior, Atlas Data Federation crea un grupo Parquet llamado clientId para el campo polimórfico llamado clientId con dos elementos secundarios nombrados según sus tipos BSON, int y string.

Esta sección se aplica sólo a las ofertas de almacenamiento de los proveedores de servicios en la nube.

Atlas Data Federation utiliza el mecanismo de gestión de errores descrito a continuación para documentos que ingresan a la etapa $out y no se pueden registrar por uno de los siguientes motivos:

  • El s3.filename no se evalúa como un valor de string.

  • El s3.filename se evalúa como un archivo al que no se puede escribir.

  • El s3.format.name está configurado en csv, tsv, csv.gz, o tsv.gz y el documento pasado a $out contiene tipos de datos que no son compatibles con el formato de archivo especificado. Para obtener una lista completa de los tipos de datos no admitidos, consulte Formato de archivo CSV y TSV.

Si $out encuentra uno de los errores anteriores mientras procesa un documento, Atlas Data Federation escribe en los siguientes tres archivos de error especiales en la ruta s3://<bucket-name>/atlas-data-lake-<correlation-id>/:

Nombre del archivo de error
Descripción

out-error-docs/<i>.json

Atlas Data Federation guarda el documento que tuvo un error en este archivo. i comienza con 1 y se incrementa cada vez que el archivo en el que se escribe alcanza el maxFileSize. Luego, cualquier otro documento se escribe en el nuevo archivo out-error-docs/<i+1>.json.

out-error-index/<i>.json

Atlas Data Federation guarda un mensaje de error en este archivo. Cada mensaje de error contiene una descripción del error y un valor de índice n que comienza con 0 y se incrementa con cada mensaje de error adicional escrito en el archivo. i comienza con 1 y se incrementa cada vez que el archivo al que se escribe alcanza el maxFileSize. A continuación, cualquier mensaje de error adicional se escribe en el nuevo archivo out-error-docs/<i+1>.json.

out-error-summary.json

Atlas Data Federation escribe un único documento resumen para cada tipo de error encontrado durante una operación de agregación en este archivo. Cada documento resumen contiene una descripción del tipo de error y un recuento del número de documentos que encontraron ese tipo de error.

Ejemplo

Este ejemplo muestra cómo generar archivos de error usando $out en una instancia federada de base de datos.

La siguiente pipeline de agregación ordena los documentos en la colección del conjunto de datos de muestra analytics.customers por fecha de nacimiento del cliente en orden descendente e intenta guardar los campos _id, name y accounts de los tres clientes más jóvenes en el archivo llamado youngest-customers.csv en el cubo S3 llamado customer-data.

db.customers.aggregate([
{ $sort: { "birthdate" : -1 } },
{ $unset: [ "username", "address", "email", "tier_and_details", "birthdate" ] },
{ $limit: 3 },
{ $out: {
"s3": {
"bucket": "customer-data",
"filename": "youngest-customers",
"region":"us-east-2",
"format": {
"name": "csv"
}
}
}
])

Debido a que accounts es un campo de arreglo, $out encuentra un error cuando intenta guardar un documento en s3.format.name csv. Para gestionar estos errores, Atlas Data Federation guarda en los siguientes tres archivos de error:

  • La siguiente salida muestra el primero de tres documentos escritos en el archivo out-error-docs/1.json:

    s3://customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-docs/1.json
    {
    "_id" : {"$oid":"5ca4bbcea2dd94ee58162ba7"},
    "name": "Marc Cain",
    "accounts": [{"$numberInt":"980440"}, {"$numberInt":"626807"}, {"$numberInt":"313907"}, {"$numberInt":"218101"}, {"$numberInt":"157495"}, {"$numberInt":"736396"}],
    }
  • La siguiente salida muestra el primero de tres mensajes de error escritos en el archivo out-error-index/1.json. El campo n comienza en 0 y aumenta por cada error escrito en el archivo.

    s3://cliente-data/atlas-lago de datos-1773b3d5e2a7f3858530daf5/out-error-índice/1.json
    {
    "n" : {"$numberInt": "0"},
    "error" : "field accounts is of unsupported type array"
    }
  • La siguiente salida muestra el resumen de errores documentado en el archivo out-error-summary. El campo count representa el número de documentos que se pasaron a $out que encontraron un error debido al campo de arreglo accounts.

    s3://customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-summary.json
    {
    "errorType": "field accounts is of unsupported type array",
    "count": {"$numberInt":"3"}
    }

Atlas Data Federation utiliza el mecanismo de gestión de errores descrito a continuación para documentos que ingresan a la etapa $out y no se pueden registrar por uno de los siguientes motivos:

  • El azure.filename no se evalúa como un valor de string.

  • El azure.filename se evalúa como un archivo al que no se puede escribir.

  • El azure.format.name está configurado en csv, tsv, csv.gz, o tsv.gz y el documento pasado a $out contiene tipos de datos que no son compatibles con el formato de archivo especificado. Para obtener una lista completa de los tipos de datos no admitidos, consulte Formato de archivo CSV y TSV.

Si $out encuentra uno de los errores anteriores mientras procesa un documento, Atlas Data Federation escribe en los siguientes tres archivos de error especiales en la ruta http://<storage-account>.blob.core.windows.net/<container-name>/atlas-data-lake-<correlation-id>/:

Nombre del archivo de error
Descripción

out-error-docs/<i>.json

Atlas Data Federation guarda el documento que encontró un error en este archivo.

i comienza con 1 y se incrementa cuando el archivo que se está escribiendo alcanza el maxFileSize. A continuación, cualquier documento adicional se escribe en el nuevo archivo out-error-docs/<i+1>.json.

out-error-index/<i>.json

Atlas Data Federation escribe un mensaje de error en este archivo. Cada mensaje de error contiene una descripción del error y un valor de índice n que comienza con 0 y aumenta con cada mensaje de error adicional escrito en el archivo.

i comienza por 1 y se incrementa cada vez que el archivo que se está guardando llega a maxFileSize. A continuación, los demás mensajes de error se guardan en el nuevo archivo out-error-docs/<i+1>.json.

out-error-summary.json

Atlas Data Federation escribe un único documento resumen para cada tipo de error encontrado durante una operación de agregación en este archivo. Cada documento resumen contiene una descripción del tipo de error y un recuento del número de documentos que encontraron ese tipo de error.

Ejemplo

Este ejemplo muestra cómo generar archivos de error usando $out en una instancia federada de base de datos.

La siguiente pipeline de agregación ordena los documentos en la colección del conjunto de datos de muestra analytics.customers por fecha de nacimiento de clientes en orden descendente y trata de escribir los campos _id, name y accounts de los tres clientes más jóvenes en el archivo llamado youngest-customers.csv en el contenedor de Azure Blob Storage llamado customer-data.

db.customers.aggregate([
{ $sort: { "birthdate" : -1 } },
{ $unset: [ "username", "address", "email", "tier_and_details", "birthdate" ] },
{ $limit: 3 },
{ $out: {
"azure": {
"serviceURL": "https://myserviceaccount.blob.core.windows.net"
"container": "customer-data",
"filename": "youngest-customers",
"region":"eastus2",
"format": {
"name": "csv"
}
}
}
])

Debido a que accounts es un campo de arreglo, $out encuentra un error cuando intenta guardar un documento en azure.format.name csv. Para gestionar estos errores, Atlas Data Federation guarda en los siguientes tres archivos de error:

  • La siguiente salida muestra el primero de tres documentos escritos en el archivo out-error-docs/1.json:

    http://mystorageaccount.blob.core.windows.net/customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-docs/1.json
    {
    "_id" : {"$oid":"5ca4bbcea2dd94ee58162ba7"},
    "name": "Marc Cain",
    "accounts": [{"$numberInt":"980440"}, {"$numberInt":"626807"}, {"$numberInt":"313907"}, {"$numberInt":"218101"}, {"$numberInt":"157495"}, {"$numberInt":"736396"}],
    }
  • La siguiente salida muestra el primero de tres mensajes de error escritos en el archivo out-error-index/1.json. El campo n comienza en 0 y aumenta por cada error escrito en el archivo.

    http://mystorageaccount.blob.core.windows.net/customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-index/1.json
    {
    "n" : {"$numberInt": "0"},
    "error" : "field accounts is of unsupported type array"
    }
  • La siguiente salida muestra el resumen de errores documentado en el archivo out-error-summary. El campo count representa el número de documentos que se pasaron a $out que encontraron un error debido al campo de arreglo accounts.

    http://mystorageaccount.blob.core.windows.net/customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-summary.json
    {
    "errorType": "field accounts is of unsupported type array",
    "count": {"$numberInt":"3"}
    }

Atlas Data Federation utiliza el mecanismo de gestión de errores descrito a continuación para documentos que ingresan a la etapa $out y no se pueden registrar por uno de los siguientes motivos:

  • El gcs.filename no se evalúa como un valor de string.

  • El gcs.filename se evalúa como un archivo al que no se puede escribir.

  • El gcs.format.name está configurado en csv, tsv, csv.gz, o tsv.gz y el documento pasado a $out contiene tipos de datos que no son compatibles con el formato de archivo especificado. Para obtener una lista completa de los tipos de datos no admitidos, consulte Formato de archivo CSV y TSV.

Si $out encuentra uno de los errores anteriores mientras procesa un documento, Atlas Data Federation escribe en los siguientes tres archivos de error especiales en la ruta gcs://<bucket-name>/atlas-data-lake-<correlation-id>/:

Nombre del archivo de error
Descripción

out-error-docs/<i>.json

Atlas Data Federation guarda el documento que tuvo un error en este archivo. i comienza con 1 y se incrementa cada vez que el archivo en el que se escribe alcanza el maxFileSize. Luego, cualquier otro documento se escribe en el nuevo archivo out-error-docs/<i+1>.json.

out-error-index/<i>.json

Atlas Data Federation guarda un mensaje de error en este archivo. Cada mensaje de error contiene una descripción del error y un valor de índice n que comienza con 0 y se incrementa con cada mensaje de error adicional escrito en el archivo. i comienza con 1 y se incrementa cada vez que el archivo al que se escribe alcanza el maxFileSize. A continuación, cualquier mensaje de error adicional se escribe en el nuevo archivo out-error-docs/<i+1>.json.

out-error-summary.json

Atlas Data Federation escribe un único documento resumen para cada tipo de error encontrado durante una operación de agregación en este archivo. Cada documento resumen contiene una descripción del tipo de error y un recuento del número de documentos que encontraron ese tipo de error.

Ejemplo

Este ejemplo muestra cómo generar archivos de error usando $out en una instancia federada de base de datos.

El siguiente pipeline de agregación ordena los documentos de la colección del conjunto de datos de muestra analytics.customers por fecha de nacimiento del cliente de forma descendente e intenta escribir los campos _id, name y accounts de los tres clientes más jóvenes en el archivo llamado youngest-customers.csv en el bucket de Google Cloud almacenamiento llamado customer-data.

db.customers.aggregate([
{ $sort: { "birthdate" : -1 } },
{ $unset: [ "username", "address", "email", "tier_and_details", "birthdate" ] },
{ $limit: 3 },
{ $out: {
"gcs": {
"bucket": "customer-data",
"filename": "youngest-customers",
"region":"us-central1",
"format": {
"name": "csv"
}
}
}
])

Debido a que accounts es un campo de arreglo, $out encuentra un error cuando intenta guardar un documento en gcs.format.name csv. Para gestionar estos errores, Atlas Data Federation guarda en los siguientes tres archivos de error:

  • La siguiente salida muestra el primero de tres documentos escritos en el archivo out-error-docs/1.json:

    gcs://cliente-data/atlas-lago de datos-1773b3d5e2a7f3858530daf5/out-error-docs/1.json
    {
    "_id" : {"$oid":"5ca4bbcea2dd94ee58162ba7"},
    "name": "Marc Cain",
    "accounts": [{"$numberInt":"980440"}, {"$numberInt":"626807"}, {"$numberInt":"313907"}, {"$numberInt":"218101"}, {"$numberInt":"157495"}, {"$numberInt":"736396"}],
    }
  • La siguiente salida muestra el primero de tres mensajes de error escritos en el archivo out-error-index/1.json. El campo n comienza en 0 y aumenta por cada error escrito en el archivo.

    gcs://cliente-data/atlas-lago de datos-1773b3d5e2a7f3858530daf5/out-error-índice/1.json
    {
    "n" : {"$numberInt": "0"},
    "error" : "field accounts is of unsupported type array"
    }
  • La siguiente salida muestra el resumen de errores documentado en el archivo out-error-summary. El campo count representa el número de documentos que se pasaron a $out que encontraron un error debido al campo de arreglo accounts.

    gcs://customer-data/atlas-data-lake-1773b3d5e2a7f3858530daf5/out-error-summary.json
    {
    "errorType": "field accounts is of unsupported type array",
    "count": {"$numberInt":"3"}
    }

Esta sección solo se aplica al almacenamiento del proveedor de servicios en la nube.