/ /

/ /

GridFS para implementaciones autogestionadas

GridFS es una especificación para almacenar y recuperar archivos que superan el límite de tamaño de documentos BSON de 16 MiB.

Nota

GridFS no admite transacciones multi-documento.

En lugar de almacenar un archivo en un solo document, GridFS divide el archivo en partes o fragmentos [1] y almacena cada fragmento como un document independiente. Por defecto, GridFS utiliza un tamaño de fragmento de 255 KiB; es decir, GridFS divide un archivo en fragmentos de 255 KiB con la excepción del último fragmento. El último fragmento solo es tan grande como sea necesario. De manera similar, los archivos que no superan el tamaño de fragmento solo tienen un fragmento final, utilizando solo el espacio necesario más algunos metadatos adicionales.

GridFS utiliza dos colecciones para almacenar archivos. Una colección almacena los fragmentos de archivos y la otra almacena los metadatos de los archivos.

Cuando realices una query a GridFS para obtener un archivo, el driver vuelve a montar los fragmentos según sea necesario. Puedes realizar consultas por rango en archivos almacenados a través de GridFS. También puede acceder a información de secciones arbitrarias de archivos, como para "saltar" al medio de un archivo de video o audio.

GridFS es útil no solo para almacenar archivos que superan los 16 MiB, sino también para almacenar cualquier archivo al que desee acceder sin tener que cargar el archivo completo en la memoria. Ver también Cuándo usar GridFS.

Cuándo utilizar GridFS

Usa GridFS para almacenar archivos más grandes que 16 MiB.

En algunas situaciones, puede ser más eficiente almacenar archivos grandes en una base de datos MongoDB que en un sistema de archivos a nivel de sistema.

Si su sistema de archivos limita la cantidad de archivos en un directorio, puede usar GridFS para almacenar tantos archivos como sea necesario.
Cuando desees acceder a porciones de archivos grandes sin cargar todo el archivo en la memoria, utiliza GridFS.
Cuando desees mantener tus archivos y metadatos sincronizados y desplegados en varios sistemas e instalaciones, utiliza GridFS. Con los conjuntos de réplicas distribuidos geográficamente, MongoDB distribuye archivos y sus metadatos en mongod instancias en varias instalaciones.

No utilices GridFS si necesitas actualizar el contenido de todo el archivo de manera atómica. Como alternativa, puedes almacenar múltiples versiones de cada archivo y especificar la versión actual del archivo en los metadatos. Puedes actualizar el campo de metadatos que indica el estado "más reciente" en una actualización atómica después de cargar la nueva versión del archivo y luego remover las versiones anteriores si es necesario.

Si todos tus archivos son menores que el límite de 16 MiB Tamaño de BSON Document, considera almacenar cada archivo en un solo document en lugar de usar GridFS. Utiliza el tipo de dato BinData para almacenar los datos binary. Consulta la documentación de tus controladores para ver los detalles sobre el uso de BinData.

Utilice GridFS

Para almacenar y recuperar archivos usando GridFS, utilice cualquiera de los siguientes:

Un driver de MongoDB. Se debe consultar la documentación de los drivers para obtener información sobre el uso de GridFS con el driver.
La mongofiles herramienta de línea de comandos. Consulte la mongofiles referencia para la documentación.

Colecciones de GridFS

GridFS almacena archivos en dos colecciones:

chunks almacena los fragmentos binarios. Para obtener más detalles, consulte La colección chunks.
files almacena los metadatos del archivo. Para obtener más detalles, consulte La colección files.

GridFS coloca las colecciones en un depósito común y les antepone el nombre del bucket. Por defecto, GridFS utiliza dos colecciones con un bucket llamado fs:

fs.files
fs.chunks

Puede elegir un nombre de bucket diferente, así como crear múltiples buckets en una sola base de datos. El nombre completo de la colección, que incluye el nombre del bucket, está sujeto al límite de longitud del namespace.

La colección `chunks`

Cada documento en la colección chunks [1] representa un fragmento distinto de un archivo tal como se representa en GridFS. Los documentos de esta colección tienen el siguiente formato:

{
  "_id" : <ObjectId>,
  "files_id" : <ObjectId>,
  "n" : <num>,
  "data" : <binary>
}

Un documento de la colección chunks contiene los siguientes campos:

chunks._id: El ObjectId único del fragmento.

chunks.files_id: El _id del documento "principal", tal como se especifica en la colección files.

chunks.n: El número de secuencia del fragmento. GridFS numera todos los fragmentos, comenzando con 0.

chunks.data: La carga útil del fragmento como un tipo BSON Binary.

La colección `files`

Cada documento en la colección files representa un archivo en GridFS.

{
  "_id" : <ObjectId>,
  "length" : <num>,
  "chunkSize" : <num>,
  "uploadDate" : <timestamp>,
  "md5" : <hash>,
  "filename" : <string>,
  "contentType" : <string>,
  "aliases" : <string array>,
  "metadata" : <any>,
}

Los documentos de la colección files contienen algunos o todos los siguientes campos:

files._id: El identificador único de este documento. El _id es del tipo de datos que se eligió para el documento original. El tipo por defecto para los documentos de MongoDB es BSON ObjectId.

files.length: El tamaño del documento en bytes.

files.chunkSize: El tamaño de cada fragmento en bytes. GridFS divide el documento en fragmentos de tamaño chunkSize, excepto el último, que tiene el tamaño necesario. El tamaño por defecto es 255 kibibytes (KiB).

files.uploadDate: La fecha en que el documento se almacenó por primera vez por GridFS. Este valor tiene el tipo Date.

files.md5

Obsoleto

FIPS 140-2 prohíbe el algoritmo MD5. Los drivers de MongoDB desaprueban el soporte de MD5 y removerán la generación de MD5 en futuras versiones. Las aplicaciones que requieran un resumen de archivo deben implementarlo fuera de GridFS y almacenarlo en files.metadata.

Un hash MD5 del archivo completo devuelto por el comando filemd5. Este valor tiene el tipo String.

files.filename: Opcional. Un nombre legible para el archivo de GridFS.

files.contentType

Obsoleto

Opcional. Un tipo MIME válido para el archivo GridFS. Solo para usar en la aplicación.

Utilice files.metadata para almacenar información relacionada con el tipo MIME del archivo GridFS.

files.aliases

Obsoleto

Opcional. Un arreglo de strings de alias. Solo para usar en la aplicación.

Use files.metadata para almacenar la información del alias.

files.metadata: opcional. El campo de metadatos puede ser de cualquier tipo de dato y puede contener cualquier información adicional que desees almacenar. Para añadir campos arbitrarios a los document de la colección files, añádelos a un objeto en el campo de metadatos.

GridFS Indexes

GridFS usa índices en cada una de las colecciones chunks y files para mayor eficiencia. Drivers que se ajustan a la especificación de GridFS crean automáticamente estos índices. También puedes crear índices adicionales para adaptarlos a tu aplicación.

El Índice de `chunks`

GridFS utiliza un único, un índice compuesto en la colección chunks que utiliza los campos files_id y n. Esto permite la recuperación eficiente de fragmentos, como se demuestra en el siguiente ejemplo:

db.fs.chunks.find( { files_id: myFileID } ).sort( { n: 1 } )

Controladores que cumplen con la especificación GridFS aseguran automáticamente que este índice exista antes de las operaciones de lectura y escritura. Consulta la documentación relevante del controlador para conocer el comportamiento específico de tu aplicación GridFS.

Si este índice no existe, puede emitir la siguiente operación para crearlo con mongosh:

db.fs.chunks.createIndex( { files_id: 1, n: 1 }, { unique: true } );

El Índice de `files`

GridFS utiliza un índice en la colección de files que utilizan los campos filename y uploadDate. Este índice permite la recuperación eficiente de archivos, como se muestra en este ejemplo:

db.fs.files.find( { filename: myFileName } ).sort( { uploadDate: 1 } )

Si este índice no existe, puede emitir la siguiente operación para crearlo con mongosh:

db.fs.files.createIndex( { filename: 1, uploadDate: 1 } );

[1]	(1, 2) El uso del término fragmentos en el contexto de GridFS no está relacionado con el uso del término fragmentos en el contexto de la partición.

Particionado de GridFS

GridFS tiene dos colecciones a considerar: files y chunks.

`chunks` Colección

Para fragmentar la colección chunks, utiliza { files_id : 1, n : 1 } o { files_id : 1 } como índice de la clave de partición. files_id es un ObjectId y cambia de forma monótona.

Para los drivers de MongoDB que no ejecutan filemd5 para verificar la carga exitosa, puede usar el particionado encriptado para la colección chunks.

Si el driver de MongoDB ejecuta filemd5, no podrá utilizar particionado encriptado. Para obtener más detalles, consulte SERVIDOR-9888.

`files` Colección

La colección files es pequeña y solo contiene metadatos. Ninguna de las claves necesarias para GridFS se presta a una distribución uniforme en un entorno de clúster particionado. Dejar files sin particionar permite que todos los documentos de metadatos de archivos residan en una sola partición.

Si debe realizar la partición de la colección files, utilice el campo _id, posiblemente en combinación con un campo de aplicación.

Volver

Google Cloud KMS

Particionado de clústeres

Nota

Cuándo utilizar GridFS

Utilice GridFS

Colecciones de GridFS

La colección chunks

La colección files

GridFS Indexes

El Índice de chunks

El Índice de files

Particionado de GridFS

chunks Colección

files Colección

La colección `chunks`

La colección `files`

El Índice de `chunks`

El Índice de `files`

`chunks` Colección

`files` Colección