AI エージェント向け: ドキュメントインデックスは https://www.mongodb.com/ja-jp/docs/llms.txt で利用できます。すべてのページの markdown バージョンは、いずれかの URL パスに .md を追加することで利用できます。
Docs Menu

マルチモーダル埋め込み

マルチモーダル埋め込みモデルは、複数のモーダルの非構造化データを共有ベクトル空間に変換します。Voyage マルチモーダル埋め込みモデルは、数値、画像、スライド デック、ドキュメントのスクリーンショット、ビデオ クリップなどのテキスト、イメージ、ビデオをサポートします。これにより、テキスト抽出やETLパイプラインが不要になります。

テキスト、画像、ビデオを個別に処理する CLIP などのマルチモーダル モデルとは異なり、Voyage マルチモーダル埋め込みモデルはインターリーブされたテキスト、画像、ビデオを含む入力をベクトル化します。CLIP のアーキテクチャにより、テキスト、画像、ビデオのベクトルは同じモーダルの関連性のないアイテムと一致することが多いため、混合モーダル検索では使用できません。Voyage マルチモーダル埋め込みモデル は、すべての入力を単一のバックグラウンドで処理することで、この傾向を軽減します。

モデル
コンテキストの長さ
ディメンション
説明

voyage-multimodal-3.5

32,000 tokens

1024(デフォルト)、256、512、2048

PDF、スライド、表、数値、ビデオなどのインターリーブされたテキストと視覚的データをベクトル化できる豊富なマルチモーダル埋め込みモデル。

詳しくは、ブログ記事を参照してください。

次の古いモデルは引き続きAPIからアクセスできますが、品質と効率を向上させるために上記の新しいモデルを使用することをお勧めします。

モデル
コンテキストの長さ
ディメンション
説明

voyage-multimodal-3

32,000 tokens

1024

テキストと画像を統合埋め込みに処理します。50、000 から 200 万ドットまでの画像をサポートします。

詳しくは、ブログ記事を参照してください。

マルチモーダル埋め込みの使用に関するチュートリアルについては、Voyage AI埋め込みを使用したセマンティック検索 を参照してください。