多模态嵌入模型可将多种模态的非结构化数据转换为共享向量空间。 Voyage 多模式嵌入模型支持文本、图像和视频,例如图表、照片、幻灯片、文档屏幕截图和视频剪辑。这样就无需进行文本提取或 ETL 管道。
与 CLIP 等分别进程文本、图像和视频的多模态模型不同,Voyage 多模态嵌入模型对包含交错文本、图像和视频的输入进行矢量化。 CLIP 的架构使其无法用于混合模态搜索,因为文本、图像和视频向量通常与相同模态的不相关项目对齐。 Voyage 多模态嵌入模型通过单个主干网处理所有输入,从而减少这种偏差。
可用型号
模型 | 上下文长度 | 维度 | 说明 |
|---|---|---|---|
| 32,000 tokens | 1024(默认)、256、512、2048 | 丰富的多模态嵌入模型,可以矢量化交错的文本和视觉数据,例如 PDF 的屏幕截图、幻灯片、表格、数字、视频等。 |
模型 | 上下文长度 | 维度 | 说明 |
|---|---|---|---|
| 32,000 tokens | 1024 | 将文本和图像处理为统一的嵌入。支持从 50、000 到 2 百万像素的图像。 |
Tutorial
有关使用多模态嵌入的教程,请参阅 使用 Voyage AI嵌入进行语义搜索。