Atlas Stream Processing を使い始める

このチュートリアルでは、Atlas Stream Processing を設定し、最初のストリームプロセッサを実行する手順について説明します。

前提条件

Atlas のサンプルデータセットからの映画データを含むコレクションを使用します。

空のクラスターを持つ Atlasプロジェクト。このクラスターは、ストリームプロセッサのデータシンクとして機能します。
ストリームプロセッサを作成および実行する、atlasAdmin ロールを持つデータベースユーザー
ストリームプロセシングワークスペースと接続レジストリを管理する、Project Stream Processing Owner またはProject Owner ロールを持つ Atlas ユーザー
注意
Project Ownerロールでは、データベース配置の作成、プロジェクトアクセスとプロジェクト設定の管理、IP アクセスリストエントリの管理などを行うことができます。
Project Stream Processing Owner のロールは、Stream Processing ワークスペースの閲覧、作成、削除、編集、接続レジストリ内の接続の表示、追加、変更、削除などの Atlas Stream Processing アクションを可能にします。
2 つのロールの違いの詳細については、「プロジェクトロール」を参照してください。

手順

このチュートリアルでは、 Stream Processing ワークスペースの作成、既存の Atlas クラスターへの接続、太陽光ストリーミングデバイスからサンプルデータを取り込み、接続されているクラスターにデータを書き込むストリームプロセッサの設定について説明します。

Stream Processing ワークスペースを作成します。

Atlasで、プロジェクトのGo Stream Processing{0 ページにします。
1. まだ表示されていない場合は、プロジェクトを含む組織をナビゲーションバーの Organizations メニューで選択します。
2. まだ表示されていない場合は、ナビゲーションバーの Projects メニューからプロジェクトを選択します。
3. サイドバーで、 Streaming Data見出しの下のStream Processingをクリックします。
  Atlas Stream Processingページが表示されます。
[Create a workspace] をクリックします。
Create a stream processing workspaceページで、ワークスペースを次のように設定します。
- Tier: SP30
- Provider: AWS
- Region: us-east-1
- Workspace Name: tutorialWorkspace
[Create] をクリックします。

接続レジストリに Sink 接続を追加します。

既存の空の Atlas クラスターへの接続を接続レジストリに追加します。ストリームプロセッサはこの接続をストリーミングデータシンクとして使用します。

Stream Processing ワークスペースのペインで、Manage をクリックします。
[ Connection Registryタブで、右上の [ + Add Connection ] をクリックします。
Connection Type ドロップダウンリストから、Atlas Database をクリックします。
Connection Nameフィールドにmongodb1と入力します。
Atlas Cluster ドロップダウンリストから、データが保存されていない Atlas クラスターを選択します。
Execute as ドロップダウンリストから、Read and write to any database を選択します。
[Add connection] をクリックします。

ストリーミングデータソースがメッセージを発行することを確認します。

Stream Processing ワークスペースには、sample_stream_solar というサンプルデータソースへの接続が事前に構成されています。このソースは、さまざまな太陽光発電デバイスからのレポートのストリーミング配信を生成します。各レポートには、特定の時点での単一の太陽光発電デバイスの観測ワット数と温度、そのデバイスの最大ワット数が記載されています。

次のドキュメントは、このデータソースからのレポートを表します。

{
  device_id: 'device_8',
  group_id: 7,
  timestamp: '2024-08-12T21:41:01.788+00:00',
  max_watts: 450,
  event_type: 0,
  obs: {
    watts: 252,
    temp: 17
  }
}

このソースがメッセージを発行することを確認するには、を使用してストリームプロセッサを対話的に作成します。mongosh

Stream Processing ワークスペースに接続します。
Stream Processing ワークスペースに関連付けられた接続文字列を使用して、mongoshを使用して接続します。
1. Stream Processing ワークスペースのペインで、Connect をクリックします。
2. ワークスペース接続ダイアログで、Choose a connection methodをクリックし、次にShellタブを選択します。
3. ダイアログに表示される接続文字列をコピーします。形式は次のとおりで、<atlas-stream-processing-url> はストリーム処理ワークスペースのURLで、<username> は atlasAdmin ロールを持つデータベースユーザーのユーザー名です。
  mongosh "mongodb://<atlas-stream-processing-url>/" --tls --authenticationDatabase admin --username <username> --password <password>
4. 接続文字列をターミナルに貼り付け、<password> プレースホルダーをユーザーの認証情報に置き換えます。
  Enter キーを押して実行し、 Stream Processing ワークスペースに接続します。
mongosh プロンプトで、sp.process() メソッドを使用してストリームプロセッサを対話的に作成します。
```
sp.process([{"$source": {
   "connectionName": "sample_stream_solar"
}}])
```
sample_stream_solar接続からのデータがコンソールに表示されていることを確認し、プロセスを終了します。
sp.process()を使用して作成したストリームプロセッサは、終了後に永続することはありません。

永続的なストリームプロセッサを作成します。

永続的なストリームプロセッサは、プロセッサを削除するまで、指定されたデータシンクにストリーミングデータを継続的に取り込み、処理し、書き込みます。次のストリームプロセッサは、秒間隔で各ソート10 デバイスの最大温度と平均、最大、最小出力を出力し、その結果を接続された空のクラスターに書込む集計パイプラインです。

次のいずれかのタブを選択して、Atlas UIまたは mongosh: を使用してストリームプロセッサを作成します。

Atlas UI でストリームプロセッサを作成するには、Atlas プロジェクトの Stream Processing ページに移動し、Stream Processing ワークスペースのペインで Manage をクリックします。次に、ビジュアルビルダまたは JSON エディターを使用して、solarDemo という名前のストリームプロセッサを構成するかを選択します。

[Create with visual builder] をクリックします。
ビジュアルビルダには、ストリームプロセッサを設定できるフォームが表示されます。
Stream processor nameフィールドにsolarDemoと入力します。
Sourceフィールドで、Connection ドロップダウンリストから sample_stream_solar を選択します。
これにより、次の $source ステージが集計パイプラインに追加されます。
```
{
  "$source": {
    "connectionName": "sample_stream_solar"
  }
}
```

$tumblingWindowステージを構成します。

Start building your pipeline ペインで + Custom stage をクリックし、次の JSONをコピーして、表示されるテキストボックスに貼り付けます。これにより、ネストされた$tumblingWindow $groupステージを持つステージが定義され、秒間隔で各ソートデバイスの最大温度と最大書込み保証（write concern）の最大書込み保証（write10 concern）を実現します。

つまり、例、$group ステージが max_watts の値を計算する場合、過去 10 秒に特定の group_id が取り込まれたすべてのドキュメントの obs.watts 値から最大値が抽出されます。

{
  "$tumblingWindow": {
    "interval": {
       "size": 10,
       "unit": "second"
    },
    "pipeline": [ {
      "$group": {
        "_id": "$group_id",
        "max_temp": {
          "$max": "$obs.temp"
        },
        "max_watts": {
          "$max": "$obs.watts"
        },
        "min_watts": {
          "$min": "$obs.watts"
        },
        "avg_watts": {
          "$avg": "$obs.watts"
        }
      }
    }]
  }
}

Sinkフィールドで、Connection ドロップダウンリストから mongodb1 を選択します。
表示されるテキストボックスに、次のJSONをコピーして貼り付けます。これにより、処理されたストリーミングデータを接続済みの Atlas クラスターの solarDbデータベース内の solarColl という名前のコレクションに書き込む$mergeステージが構成されます。
```
{
  "$merge": {
    "into": {
       "connectionName": "mongodb1",
       "db": "solarDb",
       "coll": "solarColl"
    }
  }
}
```
[Create stream processor] をクリックします。
ストリームプロセッサが作成され、Stream Processing ページの Stream Processorsタブに表示されます。

[Use JSON editor] をクリックします。
JSONエディターが開き、ストリームプロセッサをJSON形式で構成できるテキストボックスが表示されます。

ストリームプロセッサを定義します。

次のJSON定義をコピーしてJSONエディターのテキストボックスに貼り付け、solarDemo という名前のストリームプロセッサを定義します。このストリームプロセッサは、ネストされた$tumblingWindow $groupステージを持つ10 ステージを使用して、秒間隔で各ソートデバイスの最大値、最小値、平均出力値を求め、その結果をという名前のコレクションに書き込みます。接続されたsolarColl Cluster0Atlas クラスターのデータベース内の

{
  "name": "solarDemo",
  "pipeline": [
    {
      "$source": {
        "connectionName": "sample_stream_solar"
      }
    },
    {
      "$tumblingWindow": {
        "interval": {
          "size": 10,
          "unit": "second"
        },
        "pipeline": [
          {
            "$group": {
              "_id": "$group_id",
              "max_temp": {
                "$max": "$obs.temp"
              },
              "max_watts": {
                "$max": "$obs.watts"
              },
              "min_watts": {
                "$min": "$obs.watts"
              },
              "avg_watts": {
                "$avg": "$obs.watts"
              }
            }
          }
        ]
      }
    },
    {
      "$merge": {
        "into": {
          "connectionName": "mongodb1",
          "db": "Cluster0",
          "coll": "solarColl"
        },
        "parallelism":16,
      }
    }
  ]
}

mongosh で次のコマンドを実行して、solarDemo という名前の永続ストリームプロセッサを作成します。

Stream Processing ワークスペースに接続します。
Stream Processing ワークスペースに関連付けられた接続文字列を使用して、mongoshを使用して接続します。
1. Stream Processing ワークスペースのペインで、Connect をクリックします。
2. Connect to your workspace ダイアログで、Shellタブを選択します。
3. ダイアログに表示される接続文字列をコピーします。形式は次のとおりで、<atlas-stream-processing-url> はストリーム処理ワークスペースのURLで、<username> は atlasAdmin ロールを持つデータベースユーザーのユーザー名です。
  mongosh "mongodb://<atlas-stream-processing-url>/" --tls --authenticationDatabase admin --username <username> --password <password>
4. 接続文字列をターミナルに貼り付け、<password> プレースホルダーをユーザーの認証情報に置き換えます。
  Enter キーを押して実行し、 Stream Processing ワークスペースに接続します。
$sourceステージを構成します。
sample_stream_solar ソースからデータを取り込む $source ステージの変数を定義します。
```
let s = {
  $source: {
    connectionName: "sample_stream_solar"
  }
}
```

$groupステージを構成します。

$group ステージの変数を定義し、group_id に従って最大温度と各ソートデバイスの平均、最大、最小出力を出力します。

let g = {
  $group: {
    _id: "$group_id",
    max_temp: {
      $max: "$obs.temp"
    },
    avg_watts: {
       $avg: "$obs.watts"
    },
    max_watts: {
      $max: "$obs.watts"
    },
    min_watts: {
      $min: "$obs.watts"
    }
  }
}

$tumblingWindowステージを構成します。
ストリーミングデータで $group などのアキュムレーションを実行するために、Atlas Stream Processing はWindowsを使用してデータセットをバインドします。ストリームを連続する 10 秒間隔に分割する $tumblingWindow ステージの変数を定義します。
つまり、例、$group ステージが max_watts の値を計算する場合、過去 10 秒に特定の group_id が取り込まれたすべてのドキュメントの obs.watts 値から最大値が抽出されます。
```
 let t = {
   $tumblingWindow: {
     interval: {
       size: NumberInt(10),
       unit: "second"
     },
     pipeline: [g]
  }
}
```
$mergeステージを構成します。
接続された Atlas クラスターの solarDbデータベース内の solarColl という名前のコレクションに処理されたストリーミングデータを書込む $merge ステージの変数を定義します。
```
let m = {
  $merge: {
    into: {
      connectionName: "mongodb1",
      db: "solarDb",
      coll: "solarColl"
    }
  }
}
```
ストリームプロセッサを作成します。
sp.createStreamProcessor() メソッドを使用して、新しいストリームプロセッサに名前を割り当て、その集計パイプラインを宣言します。$group ステージは $tumblingWindow のネストされたパイプラインに属しており、プロセッサパイプライン定義にこれを含めることはできません。
```
sp.createStreamProcessor("solarDemo", [s, t, m])
```
これにより、以前に定義されたクエリを適用し、接続したクラスター上のsolarDbデータベースのsolarCollコレクションに処理されたデータを書込むsolarDemoという名前のストリームプロセッサが作成されます。ソートデバイスからの10秒間隔の観察から派生したさまざまな測定値を返します。
Atlas Stream Processing が保管中のデータベースに書き込む方法の詳細については、$merge（ストリームプロセシング）を参照してください。

ストリームプロセッサを起動します。

Stream Processing ワークスペースのストリームプロセッサのリストで、ストリームプロセッサの Start アイコンをクリックします。

sp.processor.start()mongoshでメソッドを使用する:

sp.solarDemo.start()

ストリームプロセッサの出力を確認します。

ストリームプロセッサが Atlas クラスターにデータを書き込んだことを確認するには、次の手順を実行します。

Atlas で、プロジェクトの [Clusters] ページに移動します。
1. まだ表示されていない場合は、希望するプロジェクトを含む組織を選択しますナビゲーションバーのOrganizationsメニュー
2. まだ表示されていない場合は、ナビゲーションバーのProjectsメニューから目的のプロジェクトを選択します。
3. サイドバーで、 Database見出しの下のClustersをクリックします。
  [ Clusters （クラスター） ] ページが表示されます。
Atlas で、プロジェクトの [Data Explorer] ページに移動します。
1. まだ表示されていない場合は、プロジェクトを含む組織をナビゲーションバーの Organizations メニューで選択します。
2. まだ表示されていない場合は、ナビゲーションバーの Projects メニューからプロジェクトを選択します。
3. サイドバーで、 Database見出しの下のData Explorerをクリックします。
  Data Explorerが表示されます。
注意
また、Clusters ページに go し、Shortcuts 見出しの下の Data Explorer をクリックします。
MySolarコレクションを表示します。

プロセッサがアクティブであることを確認するには、: のsp.processor.stats() mongoshメソッドを使用します。

sp.solarDemo.stats()

このメソッドは、solarDemoストリームプロセッサの運用統計を報告します。

また、sp.processor.sample() のmongosh メソッドを使用して、ターミナルに処理されたドキュメントのサンプルを返すこともできます。

sp.solarDemo.sample()

{
  _id: 10,
  max_temp: 16,
  avg_watts: 232,
  max_watts: 414,
  min_watts: 73
}

注意

前述の出力は、一般的なの例です。ストリーミングデータは静的ではなく、各ユーザーに異なるドキュメントが表示されます。

ストリームプロセッサを削除します。

Stream Processing ワークスペースのストリームプロセッサのリストで、ストリームプロセッサの Delete（）アイコンをクリックします。

表示される確認ダイアログで、ストリームプロセッサの名前（solarDemo）を入力して削除することを確認し、[Delete] をクリックします。

sp.processor.drop()mongoshsolarDemoを削除するには、のメソッドを使用します。

sp.solarDemo.drop()

solarDemo を削除したことを確認するには、sp.listStreamProcessors() メソッドを使用して使用可能なすべてのストリームプロセッサを一覧表示します。

sp.listStreamProcessors()

次のステップ

次の方法を学習します：

戻る

Atlas Stream Processing

アーキテクチャ

前提条件

注意

手順

Stream Processing ワークスペースを作成します。

接続レジストリに Sink 接続を追加します。

ストリーミング データソースが メッセージを発行することを確認します。

永続的なストリーム プロセッサを作成します。

ストリーム プロセッサを起動します。

ストリーム プロセッサの出力を確認します。

注意

注意