Docs Menu
Docs Home
/

マルチモーダル埋め込み

マルチモーダル埋め込みモデルは、複数のモーダルの非構造化データを共有ベクトル空間に変換します。 MongoDB マルチモーダル埋め込みモデルは、数値、画像、スライド デック、ドキュメントのスクリーンショット、ビデオ クリップなどのテキスト、イメージ、ビデオをサポートします。これにより、テキスト抽出やETLパイプラインが不要になります。

テキスト、画像、ビデオを個別に処理する CLIP などのマルチモーダル モデルとは異なり、Vyage マルチモーダル埋め込みモデルはインターリーブされたテキスト、画像、ビデオを含む入力をベクトル化します。 CLIP のアーキテクチャにより、テキスト、画像、ビデオのベクトルは同じモーダルの関連性のないアイテムと一致することが多いため、混合モーダル検索では使用できません。 MongoDB マルチモーダル埋め込みモデル は、すべての入力を単一のバックグラウンドで処理することで、この傾向を軽減します。

モデル
コンテキストの長さ
ディメンション
説明

voyage-multimodal-3.5

32,000 tokens

1024(デフォルト)、256、512、2048

PDF、スライド、表、数値、ビデオなどのインターリーブされたテキストと視覚的データをベクトル化できる豊富なマルチモーダル埋め込みモデル。

詳しくは、 ブログ記事 を参照してください。

マルチモーダル埋め込みの使用に関するチュートリアルについては、次を参照してください。 「Voyage AI埋め込みを使用したセマンティック検索」

戻る

コンテキストに基づくチャンク埋め込み

項目一覧