セマンティックビデオ検索でメディアエクスペリエンスを向上させる

MongoDB Atlasと Vyage AI のマルチモーダル埋め込みモデルを使用して、メディアアプリケーションにビデオ検索機能を実装する方法をご覧ください。

ユースケース: Gen AI

業種：メディア

製品: MongoDB Atlas、 MongoDB Atlas Vector Search、投票AIマルチモーダル埋め込み

ソリューション概要

メディアやエンタープライズ業界は、成長戦略を実現するためにデジタル変換を採用しています。WWC 調査によると、業界の売上は 3.7% で増加することが予想されます。複合年間増加率が 2025 から 2029 になり、2029 では $2.9 トリガーから $3.5 トリガーから増加します。メディア会社の場合、この増加のドライバーは、ソーシャルビデオプラットフォーム、オンデマンドのストリーミング、およびニュースチャンネルを通じて生成されたビデオエンタープライズです。

米国のみでは、消費者は 1 日あたり平均 6 時間をメディアやエンタープライズコンテンツに費やし、その半分以上がビデオに費やされています。メディア会社は、このビデオデータを活用して、顧客にプレミアムビデオエクスペリエンスを提供し、操作を効率化する必要があります。ビデオデータを活用して、セマンティックビデオ検索などのイノベーションを用いたアプリケーションの開発が可能になります。

セマンティックビデオ検索により、ユーザーはコンテキストに基づいてビデオ内の特定のコンテンツを見つけることができます。この手法では、埋め込みとベクトル検索機能を使用して、ビデオコンテンツを計算アルゴリズムで処理できる数値に変換します。例、ユーザーは実行中のポリゴンなどのクエリをビデオ検索アプリケーションに提供できます。これにより、ビデオ内の対応するステージが検索されます。

このソリューションでは、メディアアプリケーションにセマンティックビデオ検索サービスを実装する方法が示されています。このサービスでは、 MongoDB Atlas はデータストレージとベクトル検索機能をサポートし、Voyage AI はマルチモーダル埋め込みを提供します。この機能には、次のメリットがあります。

コンテンツ検出の機能向上により、ユーザーエクスペリエンスが向上します。
長いビデオの情報検索に費やされる時間が短縮され、効率が向上します。
新しいカスタマーグループを確保し、既存のカスタマーグループ間の忠実度を向上させることで、収益にドライバーへの影響を与えます。

このソリューションの概念を、保証、通信、小売などの他の業界に拡大することができます。

参照アーキテクチャ

このフレームワークでは、データストレージとセマンティック検索にMongoDB Atlas 、埋め込みには Vyage AI 、言語をテキストに変換するために Open AIが使用されます。の実装はビデオとオーディオを事前処理し、その後セマンティック検索コンポーネントを使用します。図の 1 は、前処理されるビデオと画像を表します。

図の 1。ビデオ処理フレームワーク

ワークフローは、次のように動作します。

moviepy Pythonライブラリは、mp4 映画ファイルをイメージフレームと MB3 言語ファイルに変換します。
pydub ライブラリは言語をチャンクに変換します。
言語をテキストに変換するプロバイダーは、オーディオを含むチャンクをテキストに変換します。
投票AI は、テキストとイメージのペアをマルチモーダル埋め込みモデルを使用して埋め込みに変換します。埋め込みはこれらのモダリティを単一の変換子でエンコードし、ビジュアルとテキストの意味を一緒にキャプチャする統合ベクトル表現を作成します。
MongoDB Atlas は、ベクトルとそのメタデータを、個々のドキュメントを識別するタイムスタンプを持つドキュメントとして保存します。

前処理後は、ベクトル検索インデックスを作成し、アプリケーション内でセマンティック検索を実行できます。以下の図は、このプロセスを表しています。

図の 2。MongoDBによるビデオ検索プロセス

このワークフローでは、ベクトル検索は、最も一致するビデオのメタデータとそのタイムスタンプを検索します。この情報により、アプリケーションは適切なビデオオフセットで結果を表示します。

規則書込みを検索するようになっています。このアプリケーションでは、ソリューションは利用可能な 2 つのビデオから 1 つを選択し、適切なビデオオフセットから再生します。

データモデルアプローチ

ベクトル埋め込みは、テキスト、音声、文章を意味を表す数値に変換します。この概念に基づいて、マルチモーダル埋め込みモデルは、インターリーブされたテキストとイメージを同じ次元の単一のベクトル空間にベクトル化します。

ドキュメントモデルの柔軟性を使用して、マルチモーダル埋め込みとそのメタデータを単一のドキュメントに保存できます。次のコードは、サンプルドキュメントを示しています。

{
  "movie": "mymovie" ,
  "offset": 0,
  "text_offset": 0,
  "embedding": [<list of floats>]
}

embeddingフィールドには、埋め込み画像とテキストからの結合情報が含まれます。メタデータには、ビデオ名、イメージオフセット、音声オフセットが含まれます。この構造は、特定の要件に合わせて調整できます。

ソリューションのビルド

MongoDB ist.media Githubリポジトリを使用してビデオ検索ソリューションを複製するには、次の手順に従います。このフレームワークを、独自のカスタマイズソリューションを構築するためのインスタンスとして使用できます。

環境変数を設定する

次のコマンドを実行中て、このソリューションのさまざまなコンポーネントの環境変数を設定します。

MongoDB Atlas cluster:
```
export MONGODB_IST_MEDIA=<your token>
```
投票AI埋め込み:
```
export VOYAGE_API_KEY=<your_token>
```
Open AI token:
```
export OPENAI_API_KEY=<your_token>
```

デモを配置する`ist.media`

ist.media Githubリポジトリをクローンし、README の手順に従ってデモを配置します。

デモでビデオ検索機能をテストする

ビデオ検索タブにGo、ビデオ検索機能をテストします。ポリゴン やギリシャ語などの推奨単語を使用して、ビデオ検索アプリケーションの機能を試します。

図の 3。リストメディアデモのビデオ検索サービス

自分のビデオを使用する

Githubリポジトリのビデオフォルダーは、ビデオ検索サービスを制御します。README にGo、ヘルパースクリプトの指示に従ってソリューションをニーズに合わせて調整します。

キーポイント

メタデータと埋め込みをまとめて保存: MongoDB の柔軟なドキュメントモデルを使用して、埋め込みとそのメタデータを単一ドキュメントに保存します。この構造は、セマンティックビデオ検索などの高度な機能を持つAI駆動型アプリケーションを強化します。
マルチモーダル埋め込みモデルの使用:画像やテキストなどの複数のモーダルの非構造化データを、マルチモーダル埋め込みモデルと共有ベクトル空間に変換します。MongoDB AI の mongoage-multimodal-3 モデルを使用して、インターリーブされたテキストと画像を含む入力を直接ベクトル化できます。
セマンティック検索機能を有効にする: ベクトル検索を使用してベクトルデータをインデックスてクエリを実行します。ベクトル検索を使用すると、セマンティックな意味に基づいてデータをクエリし、ビデオ検索アプリケーションに最も関連する結果を検索できます。

作成者

Benjamin Lorenz, MongoDB
Diego Canales, MongoDB

詳細

戻る

生成AIを活用した動画要約

テキストを音声に変換するニュース機能