MongoDB Atlasと Vyage AI のマルチモーダル埋め込みモデルを使用して、メディアアプリケーションにビデオ検索機能を実装する方法をご覧ください。
ユースケース: Gen AI
業種:メディア
製品: MongoDB Atlas、 MongoDB Atlas Vector Search、 投票AIマルチモーダル埋め込み
パートナー: 言語からテキストへの変換のためのオープンAI
ソリューション概要
メディアやエンタープライズ業界は、成長戦略を実現するためにデジタル変換を採用しています。WWC 調査 によると、業界の売上は 3.7% で増加することが予想されます。複合年間増加率が 2025 から 2029 になり、2029 では $2.9 トリガーから $3.5 トリガーから増加します。メディア会社の場合、この増加のドライバーは、ソーシャル ビデオ プラットフォーム、オンデマンド のストリーミング、および ニュースチャンネル を通じて生成されたビデオ エンタープライズです。
米国のみでは、消費者は 1 日あたり平均 6 時間 をメディアやエンタープライズ コンテンツに費やし、その半分以上がビデオに費やされています。メディア会社は、このビデオ データを活用して、顧客にプレミアム ビデオ エクスペリエンスを提供し、操作を効率化する必要があります。ビデオ データを活用して、セマンティック ビデオ検索などのイノベーションを用いたアプリケーションの開発が可能になります。
セマンティック ビデオ検索により、ユーザーはコンテキストに基づいてビデオ内の特定のコンテンツを見つけることができます。この手法では、埋め込みとベクトル検索機能を使用して、ビデオ コンテンツを計算アルゴリズムで処理できる数値に変換します。例、ユーザーは実行中のポリゴンなどのクエリをビデオ検索アプリケーションに提供できます。これにより、ビデオ内の対応するステージが検索されます。
このソリューションでは、メディアアプリケーションにセマンティック ビデオ検索 サービスを実装する方法が示されています。このサービスでは、 MongoDB Atlas はデータストレージとベクトル検索機能をサポートし、Voyage AI はマルチモーダル埋め込みを提供します。この機能には、次のメリットがあります。
コンテンツ検出の機能向上により、ユーザー エクスペリエンスが向上します。
長いビデオの情報検索に費やされる時間が短縮され、効率が向上します。
新しいカスタマーグループを確保し、既存のカスタマー グループ間の忠実度を向上させることで、収益にドライバーへの影響を与えます。
このソリューションの概念を、保証、通信、小売などの他の業界に拡大することができます。
参照アーキテクチャ
このフレームワークでは、データストレージとセマンティック検索にMongoDB Atlas 、埋め込みには Vyage AI 、言語をテキストに変換するために Open AIが使用されます。の実装はビデオとオーディオを事前処理し、その後 セマンティック検索コンポーネントを使用します。図の 1 は、前処理されるビデオと画像を表します。
図の 1。ビデオ処理フレームワーク
ワークフローは、次のように動作します。
moviepyPythonライブラリは、mp4 映画ファイルを イメージフレーム と MB3 言語ファイルに変換します。pydubライブラリは言語をチャンクに変換します。言語をテキストに変換するプロバイダーは、オーディオを含むチャンクをテキストに変換します。
投票AI は、テキストとイメージのペアをマルチモーダル 埋め込みモデル を使用して埋め込みに変換します。埋め込みはこれらのモダリティを単一の変換子でエンコードし、ビジュアルとテキストの意味を一緒にキャプチャする統合ベクトル表現を作成します。
MongoDB Atlas は、ベクトルとそのメタデータを、個々のドキュメントを識別するタイムスタンプを持つドキュメントとして保存します。
前処理後は、ベクトル検索インデックスを作成し、アプリケーション内でセマンティック検索を実行できます 。以下の図は、このプロセスを表しています。
図の 2。MongoDBによるビデオ検索プロセス
このワークフローでは、ベクトル検索は、最も一致するビデオのメタデータとそのタイムスタンプを検索します。この情報により、アプリケーションは適切なビデオ オフセットで結果を表示します。
規則書込みを検索するようになっています。このアプリケーションでは 、ソリューションは利用可能な 2 つのビデオから 1 つを選択し、適切なビデオ オフセットから再生します。
データモデルアプローチ
ベクトル埋め込みは、テキスト、音声、文章を意味を表す数値に変換します。この概念に基づいて、マルチモーダル埋め込みモデルは、インターリーブされたテキストとイメージを同じ次元の単一のベクトル空間にベクトル化します。
ドキュメントモデルの柔軟性を使用して、マルチモーダル埋め込みとそのメタデータを単一のドキュメントに保存できます。 次のコードは、サンプルドキュメントを示しています。
{ "movie": "mymovie" , "offset": 0, "text_offset": 0, "embedding": [<list of floats>] }
embeddingフィールドには、埋め込み画像とテキストからの結合情報が含まれます。メタデータには、ビデオ名、イメージ オフセット、音声オフセットが含まれます。この構造は、特定の要件に合わせて調整できます。
ソリューションのビルド
MongoDB ist.media Githubリポジトリを使用してビデオ検索ソリューションを複製するには、次の手順に従います。このフレームワークを、独自のカスタマイズ ソリューションを構築するためのインスタンスとして使用できます。
自分のビデオを使用する
Githubリポジトリのビデオ フォルダーは、ビデオ検索サービスを制御します。README にGo、ヘルパースクリプトの指示に従ってソリューションをニーズに合わせて調整します。
キーポイント
メタデータと埋め込みをまとめて保存: MongoDB の 柔軟なドキュメントモデルを使用して、埋め込みとそのメタデータを単一ドキュメントに保存します。この構造は、セマンティック ビデオ検索などの高度な機能を持つAI駆動型アプリケーションを強化します。
マルチモーダル埋め込みモデルの使用:画像やテキストなどの複数のモーダルの非構造化データを、マルチモーダル埋め込みモデルと共有ベクトル空間に変換します。MongoDB AI の mongoage-multimodal-3 モデルを使用して、インターリーブされたテキストと画像を含む入力を直接ベクトル化できます。
セマンティック検索機能を有効にする: ベクトル検索を使用してベクトルデータをインデックスてクエリを実行します。ベクトル検索 を使用すると、セマンティックな意味に基づいてデータをクエリし、 ビデオ検索アプリケーションに最も関連する結果を検索できます。
作成者
Benjamin Lorenz, MongoDB
Diego Canales, MongoDB