Acerca del formato Parquet
Apache Parquet es un formato de archivo gratuito y de código abierto, popular para cargas de trabajo analíticas. Parquet almacena las columnas juntas, en lugar de las filas. Es un formato de esquema fijo que admite estructuras de datos complejas como arreglos y documentos anidados. Estas funcionalidades tienen las siguientes ventajas:
query de alto rendimiento. Parquet está orientado a columnas, y por lo tanto, las consultas sobre datos Parquet pueden ser extremadamente eficaces. Por ejemplo, una query que selecciona solo una de entre miles de columnas puede extraer inmediatamente esos datos del archivo Parquet, en lugar de intentar encontrar el valor deseado en cada fila.
Almacenamiento eficiente. Parquet almacena columnas de forma contigua, lo que permite una compresión muy eficiente. Parquet requiere que los valores de una columna determinada tengan el mismo tipo, y los valores de una columna generalmente son más similares que los valores de otras columnas. Esto permite una mayor variedad de esquemas de codificación y compresión.
Compatibilidad con herramientas de análisis. Los archivos Parquet tienen un esquema fijo, por lo que los datos Parquet son compatibles con muchas herramientas de análisis que requieren datos en un formato tabular de esquema fijo.
Acerca de Parquet para Atlas Data Federation
Atlas Data Federation puede leer y guardar en archivos de datos Parquet.
Lectura de Parquet. Puedes query datos Parquet desde S3 con Atlas Data Federation. Estas consultas pueden ser más eficientes que las consultas sobre otros formatos de datos. Para obtener más información sobre por qué las consultas de datos Parquet pueden ofrecer un mejor rendimiento que otros formatos de datos, consulta Acerca del formato Parquet.
Escritura de Parquet. Atlas Data Federation permite también guardar datos en formato Parquet utilizando la etapa $out a S3. Atlas Data Federation infiere automáticamente qué esquema Parquet usar en base a los datos de MongoDB que está escribiendo en Parquet. Puedes transformar tus datos al formato de datos Parquet si deseas realizar una query con otra herramienta de análisis, como un data warehouse.
Para obtener más información sobre cómo Atlas Data Federation escribe en el formato de archivos Parquet durante la etapa $out a S3 consultar Formato de archivo Parquet.