Docs 菜单

Docs 主页启动和管理 MongoDBMongoDB Atlas

Parquet

在此页面上

  • 关于 Parquet 格式
  • 关于 Parquet for Atlas Data Federation

Apache Parquet 是一种免费的开源文件格式,在分析工作负载中很受欢迎。 Parquet 将列存储在一起,而不是将行存储在一起。它是一种固定模式格式,支持复杂的数据结构,例如数组和嵌套文档。这些功能具有以下优点:

  • 性能查询。Parquet 是面向列的,因此对 Parquet 数据的查询性能非常好。例如,仅选择数千列中的一列的查询可以立即从 Parquet 文件中提取该数据,而不必尝试在每行中找到所需的值。

  • 高效存储。Parquet 连续存储列,可实现非常高效的压缩。Parquet 要求给定列中的值必须具有相同的类型,并且一列中的值通常比其他列中的值更加相似。这使得更广泛的编码和压缩模式成为可能。

  • 与分析工具的兼容性。Parquet 文件具有固定的模式,因此 Parquet 数据与许多需要表格、固定模式格式数据的分析工具兼容。

Atlas Data Federation 可以读取和写入 Parquet 数据文件。

  • 读取 Parquet 。您可以使用 Atlas Data Federation 从 S 3查询 Parquet 数据。这些查询可能比其他数据格式的查询性能更高。要详细了解 Parquet 数据查询可能比其他数据格式更高效的原因,请参阅关于 Parquet 格式。

  • 写入 Parquet。Atlas Data Federation 还支持使用 $out to S3 阶段将数据写入 Parquet。Atlas Data Federation 根据写入 Parquet 的 MongoDB 数据自动推断要使用的 Parquet 模式。如果想使用其他分析工具(例如数据仓库)查询数据,可以将数据转换为 Parquet 数据格式。

    要进一步了解 Atlas Data Lake 在 $out to S3 阶段如何写入 Parquet 文件格式,请参阅 Parquet 文件格式。

← 支持的数据格式