Acerca del formato Parquet
Apache Parquet es un formato de archivo gratuito y de código abierto popular para cargas de trabajo analíticas. Parquet almacena columnas juntas, en lugar de filas. Es un formato de esquema fijo que admite estructuras de datos complejas como matrices y documentos anidados. Estas funcionalidades presentan las siguientes ventajas:
Consultas de alto rendimiento. Parquet está orientado a columnas, por lo que las consultas sobre datos de Parquet pueden ser extremadamente eficientes. Por ejemplo, una consulta que selecciona solo una de miles de columnas puede extraer inmediatamente esos datos del archivo Parquet, en lugar de intentar encontrar el valor deseado en cada fila.
Almacenamiento eficiente. Parquet almacena columnas de forma contigua, lo que permite una compresión muy eficiente. Parquet requiere que los valores de una columna determinada tengan el mismo tipo, y los valores de una columna generalmente son más similares que los valores de otras columnas. Esto permite una mayor variedad de esquemas de codificación y compresión.
Compatibilidad con herramientas de análisis. Los archivos Parquet tienen un esquema fijo, por lo que los datos Parquet son compatibles con muchas herramientas de análisis que requieren datos en un formato tabular de esquema fijo.
Acerca de Parquet para Atlas Data Federation
Atlas Data Federation puede leer y guardar en archivos de datos Parquet.
Leyendo Parquet. Puedes consultar datos de Parquet desde S3 con Atlas Data Federation. Estas consultas pueden tener un mejor rendimiento que las consultas en otros formatos de datos. Para obtener más información sobre por qué las consultas en datos Parquet pueden tener un mejor rendimiento que en otros formatos, consulte Acerca del formato Parquet.
Escritura en Parquet. Atlas Data Federation también le permite escribir datos en Parquet utilizando $out a S3 etapa. Atlas Data Federation infiere automáticamente qué esquema Parquet usar basado en los datos de MongoDB que estás escribiendo en Parquet. Puedes transformar tus datos al formato Parquet si deseas realizar consultas con otra herramienta de análisis, como un almacén de datos.
Para obtener más información sobre cómo Atlas Data Federation escribe en el formato de archivos Parquet durante la etapa $out a S3 consultar Formato de archivo Parquet.