テキスト埋め込み

埋め込みと再ランク付けAPI はプレビュー段階です。機能および関連するドキュメントは、プレビュー期間中にいつでも変更される可能性があります。

MongoDB AI のテキスト埋め込みモデルは、テキストをセマンティック意味をキャプチャする高次元ベクトルに変換します。モデルは本質的に多言語であるため、言語に関係なくテキストのセマンティック類似性があります。次のモデルを使用して、 AI検索アプリケーションを最新の検索精度で強化します。

利用可能なモデル

投票AI は、次のテキスト埋め込みモデルを提供します。

汎用モデル

モデル	コンテキストの長さ	ディメンション	説明
`voyage-4-large`	32,000 tokens	1024（デフォルト）、256、512、2048	最高の汎用および多言語検索品質。 4 シリーズで作成されたすべての埋め込みは相互に互換性があります。詳しくは、ブログ記事を参照してください。
`voyage-4`	32,000 tokens	1024（デフォルト）、256、512、2048	汎用および多言語検索品質が最適化されています。 4 シリーズで作成されたすべての埋め込みは相互に互換性があります。詳しくは、ブログ記事を参照してください。
`voyage-4-lite`	32,000 tokens	1024（デフォルト）、256、512、2048	レイテンシとコストが最適化されています。 4 シリーズで作成されたすべての埋め込みは相互に互換性があります。詳しくは、ブログ記事を参照してください。

ドメイン固有のモデル

モデル	コンテキストの長さ	ディメンション	説明
`voyage-code-3`	32,000 tokens	1024（デフォルト）、256、512、2048	コード検索とドキュメント用に最適化されています。詳しくは、ブログ記事を参照してください。
`voyage-finance-2`	32,000 tokens	1024	金融取得と RG アプリケーション用に最適化されています。詳しくは、ブログ記事を参照してください。
`voyage-law-2`	16,000 tokens	1024	正規表現検索と RAG アプリケーション用に最適化されています。詳しくは、ブログ記事を参照してください。

オープンモデル

モデル	コンテキストの長さ	ディメンション	説明
`voyage-4-nano`	32,000 tokens	512（デフォルト）、128、256	Hドキュメントで利用可能なオープン重みモデル。4 シリーズで作成されたすべての埋め込みは相互に互換性があります詳しくは、ブログ記事を参照してください。

次の古いモデルは引き続きAPIからアクセスできますが、品質と効率を向上させるために上記の新しいモデルを使用することをお勧めします。

当社の最新モデルは、品質、コンテキスト長、レイテンシ、スループットなどのすべての面でレガシーモデルよりもパフォーマンスが向上しています。

モデル	コンテキストの長さ	ディメンション	説明
`voyage-3-large`	32,000 tokens	1024（デフォルト）、256、512、2048	汎用および多言語検索品質のテキスト埋め込みの前の生成。詳しくは、ブログ記事を参照してください。
`voyage-3.5`	32,000 tokens	1024（デフォルト）、256、512、2048	汎用および多言語検索品質のために最適化されたテキスト埋め込みの前の生成。詳しくは、ブログ記事を参照してください。
`voyage-3.5-lite`	32,000 tokens	1024（デフォルト）、256、512、2048	レイテンシとコストのために最適化されたテキスト埋め込みの以前の生成。詳しくは、ブログ記事を参照してください。
`voyage-code-2`	16,000 tokens	1536	コード取得用に最適化されました（代替手段よりも 17% 優れています）。コード埋め込みの前の生成。詳しくは、ブログ記事を参照してください。

テキスト埋め込みの使用に関するチュートリアルについては、次のリソースを参照してください。

言語

コンテキストに基づくチャンク埋め込み