Acerca del formato Parquet
Parquet Apache Es un formato de archivo gratuito y de código abierto, popular para cargas de trabajo analíticas. Parquet almacena columnas juntas, en lugar de filas. Es un formato de esquema fijo compatible con estructuras de datos complejas, como matrices y documentos anidados. Estas características ofrecen las siguientes ventajas:
Consultas de alto rendimiento. Parquet está orientado a columnas, por lo que las consultas sobre datos de Parquet pueden ser extremadamente eficientes. Por ejemplo, una consulta que selecciona solo una de miles de columnas puede extraer inmediatamente esos datos del archivo Parquet, en lugar de intentar encontrar el valor deseado en cada fila.
Almacenamiento eficiente. Parquet almacena columnas contiguas, lo que permite una compresión muy eficiente. Parquet exige que los valores de una columna sean del mismo tipo, y los valores de una columna suelen ser más similares que los de otras. Esto permite una mayor variedad de esquemas de codificación y compresión.
Compatibilidad con herramientas de análisis. Los archivos Parquet tienen un esquema fijo, por lo que sus datos son compatibles con muchas herramientas de análisis que requieren datos en formato tabular con esquema fijo.
Acerca de Parquet para Atlas Data Federation
Atlas Data Federation puede leer y escribir en archivos de datos de Parquet.
Leyendo Parquet. Puedes consultar datos de Parquet desde S3 con Atlas Data Federation. Estas consultas pueden tener un mejor rendimiento que las consultas en otros formatos de datos. Para obtener más información sobre por qué las consultas en datos Parquet pueden tener un mejor rendimiento que en otros formatos, consulte Acerca del formato Parquet.
Escritura en Parquet. Atlas Data Federation también le permite escribir datos en Parquet utilizando Salida a la etapa S. Atlas Data Federation infiere automáticamente el esquema de Parquet que se debe usar según los datos de MongoDB que se escriben en Parquet. Puedes transformar tus datos al formato de datos de Parquet si deseas consultarlos con otra herramienta de análisis, como un almacén de datos.3
Para obtener más información sobre cómo Atlas Data Federation escribe en formato de archivo Parquet durante la etapa $out to S,3 consulte Formato de archivo Parquet.