マルチモーダル埋め込みモデルは、複数のモーダルの非構造化データを共有ベクトル空間に変換します。 MongoDB マルチモーダル埋め込みモデルは、数値、画像、スライド デック、ドキュメントのスクリーンショット、ビデオ クリップなどのテキスト、イメージ、ビデオをサポートします。これにより、テキスト抽出やETLパイプラインが不要になります。
テキスト、画像、ビデオを個別に処理する CLIP などのマルチモーダル モデルとは異なり、Vyage マルチモーダル埋め込みモデルはインターリーブされたテキスト、画像、ビデオを含む入力をベクトル化します。 CLIP のアーキテクチャにより、テキスト、画像、ビデオのベクトルは同じモーダルの関連性のないアイテムと一致することが多いため、混合モーダル検索では使用できません。 MongoDB マルチモーダル埋め込みモデル は、すべての入力を単一のバックグラウンドで処理することで、この傾向を軽減します。
利用可能なモデル
モデル | コンテキストの長さ | ディメンション | 説明 |
|---|---|---|---|
| 32,000 tokens | 1024(デフォルト)、256、512、2048 | PDF、スライド、表、数値、ビデオなどのインターリーブされたテキストと視覚的データをベクトル化できる豊富なマルチモーダル埋め込みモデル。 詳しくは、 ブログ記事 を参照してください。 |
モデル | コンテキストの長さ | ディメンション | 説明 |
|---|---|---|---|
| 32,000 tokens | 1024 | テキストと画像を統合埋め込みに処理します。 50、000 から 200 万ドットまでの画像をサポートします。 詳しくは、 ブログ記事 を参照してください。 |
Tutorial
マルチモーダル埋め込みの使用に関するチュートリアルについては、次を参照してください。 「Voyage AI埋め込みを使用したセマンティック検索」