定義
aggregate集計パイプラインを使用して集計操作を実行します。 パイプラインを使用すると、ユーザーはコレクションやその他のソースからのデータをステージベース操作のシークエンスで処理できます。
Tip
mongoshでは、このコマンドはdb.aggregate()ヘルパー メソッドおよびdb.collection.aggregate()ヘルパー メソッドで実行できます。またはwatch()ヘルパー メソッドを使用することも可能です。ヘルパー メソッドは
mongoshユーザーには便利ですが、データベースコマンドと同じレベルの情報は返されない可能性があります。 便宜上必要ない場合、または追加の戻りフィールドが必要な場合は、 データベースコマンドを使用します。
互換性
このコマンドは、次の環境でホストされている配置で使用できます。
MongoDB Atlas はクラウドでの MongoDB 配置のためのフルマネージド サービスです
重要
このコマンドは、M0 およびフレックス クラスターで限定的にサポートされています。詳細については、「サポートされていないコマンド」を参照してください。
MongoDB Enterprise: サブスクリプションベースの自己管理型 MongoDB バージョン
MongoDB Community: ソースが利用可能で、無料で使用できる自己管理型の MongoDB のバージョン
構文
バージョン 5.0 での変更。
このコマンドの構文は、次のとおりです。
db.runCommand( { aggregate: "<collection>" || 1, pipeline: [ <stage>, <...> ], explain: <boolean>, allowDiskUse: <boolean>, cursor: <document>, maxTimeMS: <int>, bypassDocumentValidation: <boolean>, readConcern: <document>, collation: <document>, hint: <string or document>, comment: <any>, writeConcern: <document>, let: <document> // Added in MongoDB 5.0 } )
コマンドフィールド
aggregate コマンドは、次のフィールドを引数として受け取ります。
フィールド | タイプ | 説明 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| string | 集約パイプラインへの入力となるコレクションまたはビューの名前。コレクションに依存しないコマンドには | ||||||||||
| 配列 | 集計パイプラインの一部としてドキュメントストリームを処理および変換する集計パイプライン ステージの配列。 | ||||||||||
| ブール値 | 任意。パイプラインの処理に関する情報を返すように指定します。 マルチドキュメントトランザクションでは使用できません。 | ||||||||||
| ブール値 | 任意。 このオプションを使用して、特定のクエリの
MongoDB 6.0 以降では、 詳細については、 プロファイラー ログ メッセージと診断ログ メッセージには、メモリ制限のために集計ステージで一時ファイルにデータが書込まれた場合、 | ||||||||||
| ドキュメント | カーソルオブジェクト作成を制御するオプションを含めたドキュメントを指定。
| ||||||||||
| non-negative integer | 任意。 時間制限をミリ秒単位で指定します。 MongoDB は、 | ||||||||||
| ブール値 | |||||||||||
| ドキュメント | 任意。読み取り保証 (read concern) を指定します。
次の読み取り保証レベルが利用できます。
読み取り保証 (read concern) のレベルについて詳しくは、「読み取り保証 (read concern) レベル」を参照してください。
| ||||||||||
| ドキュメント | 任意。 操作に使用する照合を指定します。 照合を指定すると、大文字・小文字やアクセント記号など、文字列を比較するための言語独自のルールを指定できます。 照合オプションの構文は次のとおりです。 照合を指定する場合、 照合が指定されていなくても、コレクションにデフォルトの照合が設定されている場合( コレクションにも操作にも照合が指定されていない場合、MongoDB では以前のバージョンで使用されていた単純なバイナリ比較によって文字列が比較されます。 1 つの操作に複数の照合は指定できません。たとえば、フィールドごとに異なる照合を指定できません。また、ソートと検索を一度に実行する場合、検索とソートで別の照合を使用できません。 | ||||||||||
| 文字列またはドキュメント | 任意。集計に使用するインデックス。インデックスは、集計が実行される最初のコレクションまたはビューにあります。 インデックス名、またはインデックス仕様ドキュメントのいずれかによってインデックスを指定します。
| ||||||||||
| any | 任意。このコマンドに添付するユーザー指定のコメント。設定すると、このコメントは以下の場所にこのコマンドの記録と合わせて表示されます。
コメントには、有効な BSON 型(string, integer, object, array など)を使用できます。
| ||||||||||
| ドキュメント | 任意。または | ||||||||||
| ドキュメント | 任意。 変数のリストを含むドキュメントを指定します。これにより、変数をクエリテキストから分離することで、コマンドの読みやすさを向上させることができます。 ドキュメントの構文は次のとおりです。 変数は式によって返された値に設定され、その後は変更できません。 コマンド内の変数の値にアクセスするには、二重ドル記号の接頭辞( パイプライン
バージョン 5.0 で追加 |
コマンドに explain オプションが含まれていない限り、cursor オプションとともに aggregate コマンドを使用する必要があります。
デフォルトのバッチ サイズのカーソルを示すには、
cursor: {}を指定します。デフォルト以外のバッチ サイズのカーソルを示すには、
cursor: { batchSize: <num> }を使用します。
集計パイプラインの詳細については、以下を参照してください。
セッション
セッション内で作成されたカーソルの場合、セッション外で getMore を呼び出すことはできません。
同様に、セッション外で作成されたカーソルの場合、セッション内で getMore を呼び出すことはできません。
セッション アイドル タイムアウト
MongoDB ドライバーとmongosh では、確認されていない書込み操作を除くすべての操作がサーバー セッションに関連付けられます。セッションに明示的に関連付けられていない操作(つまり Mongo.startSession()を使用するもの)の場合、MongoDB ドライバーとmongoshによって暗黙的なセッションが作成され、それが操作に関連付けられます。
セッションが30分以上アイドル状態になると、MongoDBサーバーはそのセッションを期限切れとしてマークし、いつでも閉じる可能性があります。MongoDB サーバーでセッションが閉じると、そのセッションで進行中の操作や開いているカーソルもすべて終了します。これには、noCursorTimeout() や 30 分を超える maxTimeMS() で構成されたカーソルも含まれます。
カーソルを返す操作の場合、カーソルが 30 分以上アイドル状態になる可能性がある場合は、 Mongo.startSession() を使用して明示的なセッション内で操作を発行し、 refreshSessions コマンドを使用して定期的にセッションを更新します。詳細については、セッションアイドルタイムアウトを参照してください。
トランザクション
aggregate は分散トランザクション内で使用できます。
ただし、トランザクション内では以下のステージは許可されません。
また、explain オプションも指定できません。
トランザクションの外部で作成されたカーソルの場合、トランザクション内で
getMoreを呼び出せません。トランザクション内で作成されたカーソルの場合、トランザクション外で
getMoreを呼び出せません。
重要
ほとんどの場合、分散トランザクションでは 1 つのドキュメントの書き込み (write) よりもパフォーマンス コストが高くなります。分散トランザクションの可用性は、効果的なスキーマ設計の代わりにはなりません。多くのシナリオにおいて、非正規化されたデータモデル(埋め込みドキュメントと配列)が引き続きデータやユースケースに最適です。つまり、多くのシナリオにおいて、データを適切にモデリングすることで、分散トランザクションの必要性を最小限に抑えることができます。
トランザクションの使用に関するその他の考慮事項(ランタイム制限や oplog サイズ制限など)については、「本番環境での考慮事項」も参照してください。
クライアントの切断
$out ステージまたは $merge ステージを含まない aggregate 操作の場合。
操作が完了する前にaggregateを発行したクライアントが切断された場合、MongoDB はaggregateをkillOpを使用して終了対象としてマークします。
クエリ設定
バージョン8.0の新機能。
クエリ設定を使用して、インデックスヒント、操作拒否フィルター、その他のフィールドを設定できます。設定はクラスター全体のクエリシェイプに適用されます。クラスターは、シャットダウン後も設定を保持します。
クエリオプティマイザは、クエリプランニング中の追加入力としてクエリ設定を使用します。これは、クエリを実行するために選択されたプランに影響します。クエリ設定を使用してクエリシェイプをブロックすることもできます。
クエリ設定を追加して例を調べるには、setQuerySettings を参照してください。
find、distinct、および aggregate コマンドのクエリ設定を追加できます。
クエリ設定にはより多くの機能があり、廃止されたインデックスフィルターよりも優先されます。
クエリ設定を削除するには、 removeQuerySettingsを使用します。 クエリ設定を取得するには、集計パイプラインの$querySettingsステージを使用します。
Stable API
Stable API V1 を使用する場合
aggregateコマンドでは次に挙げるステージは使用できません。aggregateコマンドにexplainフィールドを含めないでください。その場合サーバーは APIStrictError エラーを返します。$collStatsステージを使用する場合、使用できるのはcountフィールドのみです。他の$collStatsフィールドは使用できません。
例
コマンドに explain オプションが含まれていない限り、cursor オプションとともに aggregate コマンドを使用する必要があります。
デフォルトのバッチ サイズのカーソルを示すには、
cursor: {}を指定します。デフォルト以外のバッチ サイズのカーソルを示すには、
cursor: { batchSize: <num> }を使用します。
aggregateコマンドを直接実行するのではなく、むしろほとんどのユーザーは で提供されるdb.collection.aggregate() mongoshヘルパーまたはドライバー内の同等のヘルパーを使用する必要があります。
コマンド構文を示す最初の 2 つの例を除き、このページの例では db.collection.aggregate() ヘルパーを使用します。
このページの例では、sample_mflixサンプルデータセットのデータを使用します。このデータセットを自己管理型MongoDB配置にロードする方法の詳細については、サンプルデータセットをロードする を参照してください。サンプルデータベースに変更を加えた場合、このページの例を実行するには、データベースを削除して再作成する必要がある場合があります。
マルチステージパイプラインによるデータの集約
sample_mflixデータベースの moviesコレクションには次のdocumentが含まれています。
注意
moviesコレクション内のdocumentには、ここに表示されていない追加フィールドが含まれています。
{ title: 'The Shawshank Redemption', year: 1994, genres: [ 'Crime', 'Drama' ], runtime: 142, imdb: { rating: 9.3, votes: 1521105, id: 111161 }, directors: [ 'Frank Darabont' ], cast: [ 'Tim Robbins', 'Morgan Freeman', 'Bob Gunton', 'William Sadler' ], }, { title: 'The Godfather', year: 1972, genres: [ 'Crime', 'Drama' ], runtime: 175, imdb: { rating: 9.2, votes: 1038358, id: 68646 }, directors: [ 'Francis Ford Coppola' ], cast: [ 'Marlon Brando', 'Al Pacino', 'James Caan', 'Richard S. Castellano' ] }, { title: 'Pulp Fiction', year: 1994, genres: [ 'Crime', 'Drama' ], runtime: 154, imdb: { rating: 8.9, votes: 1179033, id: 110912 }, directors: [ 'Quentin Tarantino' ], cast: [ 'Tim Roth', 'Amanda Plummer', 'Laura Lovelace', 'John Travolta' ] }, { title: 'Forrest Gump', year: 1994, genres: [ 'Drama', 'Romance' ], runtime: 142, imdb: { rating: 8.8, votes: 1087227, id: 109830 }, directors: [ 'Robert Zemeckis' ], cast: [ 'Tom Hanks', 'Rebecca Williams', 'Sally Field', 'Michael Conner Humphreys' ], }, { title: 'Inception', year: 2010, genres: [ 'Action', 'Sci-Fi', 'Thriller' ], runtime: 148, imdb: { rating: 8.8, votes: 1294646, id: 1375666 }, directors: [ 'Christopher Nolan' ], cast: [ 'Leonardo DiCaprio', 'Joseph Gordon-Levitt', 'Ellen Page', 'Tom Hardy' ], }
次の例では、 aggregate操作を実行して、moviesコレクションに表示されるそれぞれのジャンルの数を計算します。
db.runCommand( { aggregate: "movies", pipeline: [ { $project: { genres: 1 } }, { $unwind: "$genres" }, { $group: { _id: "$genres", count: { $sum : 1 } } } ], cursor: { } } )
mongosh では、この操作は次の例のように db.collection.aggregate() ヘルパーを使用できます。
db.movies.aggregate( [ { $project: { genres: 1 } }, { $unwind: "$genres" }, { $group: { _id: "$genres", count: { $sum: 1 } } } ] )
管理データベースでの $currentOp の使用
次の例では、管理データベースで 2 つのステージを持つパイプラインを実行します。最初のステージでは $currentOp 操作を実行し、2 番目のステージではその操作の結果をフィルタリングします。
db.adminCommand( { aggregate : 1, pipeline : [ { $currentOp : { allUsers : true, idleConnections : true } }, { $match : { shard : "shard01" } } ], cursor : { } })
注意
aggregate コマンドはコレクションを指定せず、代わりに {aggregate: 1} の形式を取ります。これは、最初の $currentOp ステージではコレクションから入力が取得されないためです。パイプラインの残りの部分で使用される独自のデータを生成します。
こうしたコレクションレス集計の実行を支援するために、新しい db.aggregate() ヘルパーが追加されました。上の集計はこの例のように実行することもできます。
集計操作の情報を返す
次の集計操作では、任意フィールド explain を true に設定して、集計操作に関する情報を返します。
db.comments.aggregate( [ { $match: { date: { $gte: ISODate("2015-01-01") } } }, { $group: { _id: "$movie_id", commentCount: { $sum: 1 } } }, { $sort: { commentCount: -1 } } ], { explain: true } )
注意
explain の出力は、リリース間で変更される可能性があります。
相互作用: allowDiskUseByDefault
実行に 100 MB を超えるメモリを必要とするパイプライン ステージは、デフォルトで一時ファイルをディスクに書き込みます。これらの一時ファイルはパイプラインの実行中ずっと残り、インスタンスのストレージ容量に影響を与える可能性があります。
個々の find と aggregate コマンドは、次のいずれかの方法で allowDiskUseByDefault パラメーターを上書きできます。
allowDiskUseByDefaultがfalseに設定されている場合に{ allowDiskUse: true }を使用して一時ファイルをディスクに書き込むことを許可するallowDiskUseByDefaultがtrueに設定されている場合に{ allowDiskUse: false }を使用して一時ファイルがディスクに書き込むことを禁止する
プロファイラー ログ メッセージと診断ログ メッセージには、メモリ制限のために集計ステージで一時ファイルにデータが書込まれた場合、usedDisk インジケーターが含められます。
バッチサイズを指定する集計データ
初期バッチサイズを指定するには、下記の例のように cursor フィールドに batchSize を指定します。
db.theaters.aggregate( [ { $match: { "location.address.state": "NY" } }, { $group: { _id: "$location.address.city", theaterCount: { $sum: 1 } } }, { $sort: { theaterCount: -1 } }, { $limit: 2 } ], { cursor: { batchSize: 0 } } )
初期バッチのサイズを指定する { cursor: { batchSize: 0 } } ドキュメントは、1 個めのバッチが空であることを示します。このバッチサイズは、サーバー側での目立った作業なしに、カーソルやエラーメッセージをすばやく返すのに便利です。
後続の getMore 操作(最初のバッチの後)のバッチ サイズを指定するには、getMore コマンドを実行する際に batchSize フィールドを使用します。
照合の指定
照合を指定すると、大文字・小文字やアクセント記号など、文字列を比較するための言語独自のルールを指定できます。
次の集計操作では、sample_mflixデータベースの moviesコレクション内のすべてのフランス語映画のタイトルが返され、fr 照合を指定します。
db.movies.aggregate( [ { $match: {"countries": "France", "languages": "French"} }, { $project: { "title": 1, "_id": 0 } } ], { collation: { locale: "fr", strength: 1 } } )
照合フィールドの説明については、照合ドキュメントを参照してください。
インデックスの hint
sample_mflixデータベースの moviesコレクションには、次と同様のdocumentが含まれています。
{ title: "The Shawshank Redemption", year: 1994, rated: "R", imdb: { rating: 9.3, votes: 1513145, id: 111161 } }, { title: "The Godfather", year: 1972, rated: "R", imdb: { rating: 9.2, votes: 1038358, id: 68646 } }, { title: "The Dark Knight", year: 2008, rated: "PG-13", imdb: { rating: 9, votes: 1495351, id: 468569 } }, { title: "Forrest Gump", year: 1994, rated: "PG-13", imdb: { rating: 8.8, votes: 1087227, id: 109830 } }
moviesコレクションに次のインデックスが存在するとします。
db.movies.createIndex( { "imdb.rating": 1, year: 1 } )
db.movies.createIndex( { "imdb.rating": 1, rated: 1 } )
下記の集計操作には、指定されたインデックスの使用を強制する hint オプションが含まれています。
db.movies.aggregate( [ { $sort: { "imdb.rating": 1 } }, { $match: { rated: "R", "imdb.rating": { $gte: 9.0 } } }, { $sort: { year: -1 } } ], { hint: { "imdb.rating": 1, rated: 1 } } )
デフォルトの読み取り保証を上書き
デフォルトの読み取り保証 (read concern) レベルを上書きするには、readConcern オプションを使用します。getMore コマンドは、元の aggregate コマンドで指定された readConcern レベルを使用します。
moviessample_mflixデータベースから コレクションに対する次の操作では、過半数のノードに書き込まれたことが確認されたデータの最新のコピーを読み取るために、 の 読み取り保証 (read concern) を指定します。"majority"
重要
$outステージを含む集計に対して、読み取り保証レベル"majority"を指定できます。読み取り保証のレベルを問わず、ノード上の最新データにシステム内のデータの最新バージョンが反映されていない場合があります。
db.movies.aggregate( [ { $match: { "imdb.rating": { $gte: 8.0 } } }, { $group: { _id: "$rated", avgRating: { $avg: "$imdb.rating" }, count: { $sum: 1 } } }, { $sort: { avgRating: -1 } } ], { readConcern: { level: "majority" } } )
単一のスレッドでそれ自体の書き込みの読み取りを可能にするには、レプリカセットのプライマリに対して "majority" 読み取り保証と "majority" 書込み保証を使用します。
変数の使用 let
コマンド内の他の場所からアクセスできる変数を定義するには、 letオプションを使用します。
sample_mflixデータベースの moviesコレクションには次のようなdocumentが含まれています。
{ title: "The Shawshank Redemption", year: 1994, rated: "R", imdb: { rating: 9.3, votes: 1513145, id: 111161 }, runtime: 142 }
次の例では、 let オプションを使用して、パイプラインで使用できる変数を定義しています。この集計では、評価が高く、上映時間が長い映画が検索されます。
db.runCommand( { aggregate: "movies", pipeline: [ { $match: { $expr: { $and: [ { $gte: [ "$imdb.rating", "$$minRating" ] }, { $gte: [ "$runtime", "$$minRuntime" ] } ] } } }, { $project: { title: 1, year: 1, "imdb.rating": 1, runtime: 1 } }, { $sort: { "imdb.rating": -1 } }, { $limit: 3 } ], cursor: {}, let: { minRating: 8.5, minRuntime: 120 } } )