개요
이 가이드에서는 PyMongo를 사용하여 애그리게이션 작업 을 수행하는 방법을 배울 수 있습니다.
애그리게이션 작업은 MongoDB 컬렉션의 데이터를 처리하고 계산된 결과를 반환합니다. Query API의 일부인 MongoDB 애그리게이션 프레임워크는 데이터 처리 파이프라인 개념을 모델로 합니다. 문서는 하나 이상의 단계를 포함하는 파이프라인에 들어가고, 이 파이프라인은 문서를 애그리게이션된 결과로 변환합니다.
집계 작업은 자동차 공장과 유사합니다. 자동차 공장에는 조립 라인이 있으며, 여기에는 드릴과 용접기 등 특정 작업을 수행할 수 있는 특수 공구를 갖춘 조립 스테이션이 있습니다. 원부품이 공장에 들어오면 조립 라인에서 이를 변형하고 조립하여 완제품으로 만듭니다.
집계 파이프라인은 조립 라인이고, 집계 단계는 조립 스테이션이며, 작업 연산자는 특수 도구입니다.
팁
애그리게이션 튜토리얼 완료
서버 매뉴얼의전체 집계 파이프라인 튜토리얼 섹션에서 일반적인 집계 작업에 대한 자세한 설명을 제공하는 튜토리얼을 찾을 수 있습니다. 튜토리얼을 선택한 다음 페이지 오른쪽 상단의 Select your language 드롭다운 메뉴에서 Python 를 선택합니다.
애그리게이션 대 찾기 작업
찾기 조치를 사용하여 다음 조치을 수행할 수 있습니다:
반환할 문서 선택
반환할 필드 선택
결과 정렬
집계 조치를 사용하여 다음 조치를 수행할 수 있습니다:
찾기 작업 수행
필드 이름 바꾸기
필드 계산
데이터 요약
그룹 값
제한 사항
애그리게이션 작업을 사용할 때는 다음과 같은 제한 사항에 유의하세요.
반환된 문서는 BSON 문서 크기 제한인 16메가바이트를 초과하지 않아야 합니다.
파이프라인 단계의 메모리 제한은 기본적으로 100 메가바이트입니다.
aggregate()메서드의allowDiskUse키워드 인수를 사용하여 이 제한을 초과할 수 있습니다.
집계 예시
참고
이 예시 에서는 Atlas 샘플 데이터 세트 의 sample_restaurants.restaurants 컬렉션 을 사용합니다. 무료 MongoDB Atlas cluster 를 생성하고 샘플 데이터 세트를 로드하는 방법을 학습 보려면 PyMongo 시작하기를 참조하세요.
집계를 수행하려면 집계 단계 목록을 collection.aggregate() 메서드에 전달합니다.
다음 코드 예제에서는 뉴욕의 각 자치구에 있는 베이커리 수의 개수를 생성합니다. 이를 위해 다음 단계의 집계 파이프라인을 사용합니다.
cuisine필드에"Bakery"값이 포함된 문서를 필터링하는 $match 단계입니다.일치하는 문서를
borough필드별로 그룹화하여 각 고유 값에 대한 문서 수를 누적하는 $group 단계입니다.
# Define an aggregation pipeline with a match stage and a group stage pipeline = [ { "$match": { "cuisine": "Bakery" } }, { "$group": { "_id": "$borough", "count": { "$sum": 1 } } } ] # Execute the aggregation aggCursor = collection.aggregate(pipeline) # Print the aggregated results for document in aggCursor: print(document)
앞의 코드 예제는 다음과 유사한 출력을 생성합니다.
{'_id': 'Bronx', 'count': 71} {'_id': 'Brooklyn', 'count': 173} {'_id': 'Missing', 'count': 2} {'_id': 'Manhattan', 'count': 221} {'_id': 'Queens', 'count': 204} {'_id': 'Staten Island', 'count': 20}
애그리게이션 설명
MongoDB가 작업을 실행하는 방법에 대한 정보를 보려면 MongoDB에 설명 을 지시하면 됩니다. MongoDB는 작업을 설명할 때 실행 계획 과 성능 통계를 반환합니다. 실행 계획은 MongoDB가 작업을 완료할 수 있는 잠재적인 방법입니다. MongoDB에 작업 설명을 지시하면 MongoDB가 실행한 계획과 거부된 실행 계획이 모두 반환됩니다.
집계 작업을 설명하려면 PyMongoExplain 라이브러리 또는 데이터베이스 명령 사용할 수 있습니다. 아래에서 해당 탭 선택하여 각 메서드의 예시 확인하세요.
다음 예제와 같이 pip를 사용하여 pymongoexplain 라이브러리를 설치합니다.
python3 -m pip install pymongoexplain
다음 코드 예시 에서는 앞의 집계 예시 를 실행하고 MongoDB 에서 반환된 설명을 출력합니다.
# Define an aggregation pipeline with a match stage and a group stage pipeline = [ { "$match": { "cuisine": "Bakery" } }, { "$group": { "_id": "$borough", "count": { "$sum": 1 } } } ] # Execute the operation and print the explanation result = ExplainableCollection(collection).aggregate(pipeline) print(result)
... 'winningPlan': {'queryPlan': {'stage': 'GROUP', 'planNodeId': 3, 'inputStage': {'stage': 'COLLSCAN', 'planNodeId': 1, 'filter': {'cuisine': {'$eq': 'Bakery'}}, 'direction': 'forward'}}, ...
다음 코드 예시 에서는 앞의 집계 예시 를 실행하고 MongoDB 에서 반환된 설명을 출력합니다.
# Define an aggregation pipeline with a match stage and a group stage pipeline = [ { $match: { cuisine: "Bakery" } }, { $group: { _id: "$borough", count: { $sum: 1 } } } ] # Execute the operation and print the explanation result = database.command("aggregate", "collection", pipeline=pipeline, explain=True) print(result)
... 'command': {'aggregate': 'collection', 'pipeline': [{'$match': {'cuisine': 'Bakery'}}, {'$group': {'_id': '$borough', 'count': {'$sum': 1}}}], 'explain': True, ...
팁
Python의 pprint 모듈을 사용하면 설명 결과를 더 쉽게 읽을 수 있습니다.
import pprint ... pprint.pp(result)
추가 정보
MongoDB Server 매뉴얼
집계 단계의 전체 목록은 MongoDB Server 매뉴얼의 집계 단계 를 참조하세요.
집계 파이프라인을 어셈블하는 방법에 대해 알아보고 예제를 보려면 집계 파이프라인을 참조하세요.
MongoDB 작업에 대해 자세히 알아보려면 출력 설명 및 쿼리 계획을 참조하세요.
API 문서
PyMongo로 애그리게이션 작업을 실행하는 방법에 대한 자세한 내용은 다음 API 문서를 참조하세요.