/ /

チュートリアル: MongoDBからAmazon Web Services S3 へのデータの継続的なコピー

Atlas Data Federation と Atlas 予定されたトリガーを使用して、Atlas クラスターからApache Perquet形式のAWS S3バケットにデータをコピーします。Partquet は、ドキュメントではなくファイルとしてデータを必要とする分析や機械学習のワークロードに適した列指向形式です。定期的にスケジュールしてコピーを実行するし、運用クラスターから分析クエリをオフロードします。

このタスクについて

チュートリアルでは差分アプローチを使用します。つまり、各triggerの実行では過去 60 秒間のドキュメントがコピーされます。代わりに、全体コレクションを毎回コピーする完全スナップショットを使用することもできます。適切なアプローチは、データボリュームとダウンストリームコンシューマーの要件によって異なります。

このチュートリアルの maxFileSize と maxRowGroupSize の値は、本番ではなくテスト用に最適化されています。本番のワークロードの場合は、$out ステージオプションを検討し、クエリパターンに基づいてファイルサイズとパーティショニングを調整します。

始める前に

このチュートリアルを開始する前に、次のタスクを完了してください。

コピーしたいデータを含むクラスターで Atlas アカウントを作成します。開始するには、クラスターの作成を参照してください。
Amazon Web Services アカウントを作成し、IAM ロールと S3 バケットを作成する権限を付与します。Atlas Data Federation に必要な権限を構成する方法については、「フェデレーティッドデータベースインスタンスデータストアの配置」を参照してください。
AWS CLI をインストールして構成します。

手順

S3 と Atlas データストアを使用してフェデレーティッドデータベースインスタンスを配置する。

フェデレーティッドデータベースインスタンスは、複数のデータソースを 1 つのクエリ可能なインターフェースに統合します。このチュートリアルでは、S3 バケットと Atlas クラスターを同じフェデレーティッドデータベースインスタンス内のデータストアとして接続します。両方のデータストアを接続すると、コピー trigger はクラスターから読み取り、S3 に書き込めることができます。

S3 データストアを使用してフェデレーティッドデータベースインスタンスを配置する。詳細については、「フェデレーティッドデータベースインスタンスデータストアを配置する」を参照してください。S3 データストアを構成する際に、IAM ロール Read and write にバケットへのアクセス権を付与します。これにより、Atlas Data Federation は Parquet ファイルを書き込めることができます。
Atlas クラスターをフェデレーティッドデータベースインスタンスの 2 番目のデータストアとして追加します。

これらの手順が完了したら、フェデレーティッドデータベースインスタンスサービスの名前を控えておきます。この名前は後の手順で必要になります。

テストドキュメントを挿入するための予定されたトリガーを作成します。

毎分ごとに新しいドキュメントをクラスターに挿入する予定されたトリガーを作成します。これによりテストデータが生成され、コピー trigger が動作することを確認できます。

Atlas で、 Triggers ページに移動します。
1. まだ表示されていない場合は、プロジェクトを含む組織をナビゲーションバーの Organizations メニューで選択します。
2. まだ表示されていない場合は、ナビゲーションバーの Projects メニューからプロジェクトを選択します。
3. サイドバーで、 Streaming Data見出しの下のTriggersをクリックします。
Triggersページが表示されます。
[Add Trigger] をクリックします。
Scheduled を Trigger Type として選択します。
Trigger Details で、次の構成を設定します。
設定
値
Trigger Name
Create_Event_Every_Min_Trigger
Schedule Type
Basic
Interval
1 分ごと
Event Type
Function

Functionセクションで+ New Functionを選択し、次のコードを入力します。プレースホルダー値を、Atlas サービス、データベース、コレクションの名前に置き換えます。

exports = function () {
   const mongodb = context.services.get(
      "NAME_OF_YOUR_ATLAS_SERVICE"
   );
   const db = mongodb.db("NAME_OF_YOUR_DATABASE");
   const events = db.collection(
      "NAME_OF_YOUR_COLLECTION"
   );
   const event = events.insertOne({
      time: new Date(),
      aNumber: Math.random() * 100,
      type: "event"
   });
   return JSON.stringify(event);
};

[Save] をクリックします。
trigger の実行後、クラスターコレクションに新しいドキュメントが毎分表示されることを確認します。

S3にデータをコピーする予定されたトリガーを作成します。

集計パイプラインを実行する予定されたトリガーを作成します。$out ステージを使用して、クラスターから最新のドキュメントを Parquet 形式でクラウドプロバイダーの S3 バケットに 1 分ごとにコピーします。

Triggersページで、 Add Triggerをクリックします。
Scheduled を Trigger Type として選択します。
Trigger Details で、次の構成を設定します。
設定
値
Trigger Name
Copy_Events_To_S3_Trigger
Schedule Type
Basic
Interval
1 分ごと
Event Type
Function

Functionセクションで+ New Functionを選択し、次のコードを入力します。プレースホルダー値を、フェデレーティッドデータベースインスタンスサービス、バーチャルデータベース、バーチャルコレクション、S3バケット、AWSリージョンの名前に置き換えます。

exports = function () {
   const service = context.services.get(
      "NAME_OF_YOUR_FEDERATED_DATA_SERVICE"
   );
   const db = service.db(
      "NAME_OF_YOUR_VIRTUAL_DATABASE"
   );
   const events = db.collection(
      "NAME_OF_YOUR_VIRTUAL_COLLECTION"
   );
   const pipeline = [
      {
         $match: {
            "time": {
               $gt: new Date(
                  Date.now() - 60 * 1000
               ),
               $lt: new Date(Date.now())
            }
         }
      },
      {
         "$out": {
            "s3": {
               "bucket": "YOUR_S3_BUCKET_NAME",
               "region": "YOUR_AWS_REGION",
               "filename": "events",
               "format": {
                  "name": "parquet",
                  "maxFileSize": "10GB",
                  "maxRowGroupSize": "100MB"
               }
            }
         }
      }
   ];
   return events.aggregate(pipeline);
};

[Save] をクリックします。
trigger の実行後、events という名前の Parquet ファイルがユーザーの S3 バケット内に表示されることを確認します。

詳細

戻る

チュートリアル: クラスター構成の自動化

trigger を無効にする

設定	値
Trigger Name	`Create_Event_Every_Min_Trigger`
Schedule Type	Basic
Interval	`1` 分ごと
Event Type	Function

設定	値
Trigger Name	`Copy_Events_To_S3_Trigger`
Schedule Type	Basic
Interval	`1` 分ごと
Event Type	Function