本指南举例说明如何在常见情况下使用 PyMongoArrow 模式。
带模式的嵌套数据
执行聚合或查找操作时,可以使用 struct对象为嵌套数据提供模式。 与其父文档相比,子文档中可能存在名称冲突。
from pymongo import MongoClient from pymongoarrow.api import Schema, find_arrow_all from pyarrow import struct, field, int32 coll = MongoClient().db.coll coll.insert_many(     [         {"start": "string", "prop": {"name": "foo", "start": 0}},         {"start": "string", "prop": {"name": "bar", "start": 10}},     ] ) arrow_table = find_arrow_all(     coll, {}, schema=Schema({"start": str, "prop": struct([field("start", int32())])}) ) print(arrow_table) pyarrow.Table start: string prop: struct<start: int32>   child 0, start: int32 ---- start: [["string","string"]] prop: [   -- is_valid: all not null   -- child 0 type: int32 [0,10]] 
使用 Pandas 和 NumPy 时,您可以执行相同的操作:
df = find_pandas_all(     coll, {}, schema=Schema({"start": str, "prop": struct([field("start", int32())])}) ) print(df)     start           prop 0  string   {'start': 0} 1  string  {'start': 10} 
带投影的嵌套数据
您还可以在将数据传递给 PyMongoArrow 之前使用投影来展平数据。 以下示例说明了如何使用非常简单的嵌套文档结构来执行此操作:
df = find_pandas_all(     coll,     {         "prop.start": {             "$gte": 0,             "$lte": 10,         }     },     projection={"propName": "$prop.name", "propStart": "$prop.start"},     schema=Schema({"_id": ObjectIdType(), "propStart": int, "propName": str}), ) print(df)                                  _id  propStart propName 0  b'c\xec2\x98R(\xc9\x1e@#\xcc\xbb'          0      foo 1  b'c\xec2\x98R(\xc9\x1e@#\xcc\xbc'         10      bar 
执行聚合操作时,可以使用$project阶段展平字段,如以下示例所示:
>>> df = aggregate_pandas_all( ...     coll, ...     pipeline=[ ...         {"$match": {"prop.start": {"$gte": 0, "$lte": 10}}}, ...         { ...             "$project": { ...                 "propStart": "$prop.start", ...                 "propName": "$prop.name", ...             } ...         }, ...     ], ... )