Docs 菜单

/

/

/

多模态嵌入

Embedding and Reranking API处于预览版中。在预览期间，该功能和相应的文档可能随时更改。

多模态嵌入模型可将多种模态的非结构化数据转换为共享向量空间。Voyage 多模式嵌入模型支持文本、图像和视频，例如图表、照片、幻灯片、文档屏幕截图和视频剪辑。这样就无需进行文本提取或 ETL 管道。

与 CLIP 等分别进程文本、图像和视频的多模态模型不同，Voyage 多模态嵌入模型对包含交错文本、图像和视频的输入进行矢量化。CLIP 的架构使其无法用于混合模态搜索，因为文本、图像和视频向量通常与相同模态的不相关项目对齐。Voyage 多模态嵌入模型通过单个主干网处理所有输入，从而减少这种偏差。

可用型号

模型	上下文长度	维度	说明
`voyage-multimodal-3.5`	32,000 tokens	1024（默认）、256、512、2048	丰富的多模态嵌入模型，可以矢量化交错的文本和视觉数据，例如 PDF 的屏幕截图、幻灯片、表格、数字、视频等。要学习更多信息，请参阅博客文章。

旧模型

仍可通过API访问以下旧模型，但建议使用上述新模型，以提高质量和效率。

模型	上下文长度	维度	说明
`voyage-multimodal-3`	32,000 tokens	1024	将文本和图像处理为统一的嵌入。支持从 50、000 到 2 百万像素的图像。要学习；了解更多信息，请参阅博客文章。。

Tutorial

有关使用多模态嵌入的教程，请参阅使用 Voyage AI 嵌入进行语义搜索。

使用

语言

后退

上下文化数据块嵌入

来年

重排序器

给本页内容打分

在此页面上

可用型号

旧模型
Tutorial
使用

在此页面上

可用型号
旧模型
Tutorial
使用