Docs 菜单
Docs 主页
/

多模态嵌入

多模态嵌入模型可将多种模态的非结构化数据转换为共享向量空间。 Voyage 多模式嵌入模型支持文本、图像和视频,例如图表、照片、幻灯片、文档屏幕截图和视频剪辑。这样就无需进行文本提取或 ETL 管道。

与 CLIP 等分别进程文本、图像和视频的多模态模型不同,Voyage 多模态嵌入模型对包含交错文本、图像和视频的输入进行矢量化。 CLIP 的架构使其无法用于混合模态搜索,因为文本、图像和视频向量通常与相同模态的不相关项目对齐。 Voyage 多模态嵌入模型通过单个主干网处理所有输入,从而减少这种偏差。

模型
上下文长度
维度
说明

voyage-multimodal-3.5

32,000 tokens

1024(默认)、256、512、2048

丰富的多模态嵌入模型,可以矢量化交错的文本和视觉数据,例如 PDF 的屏幕截图、幻灯片、表格、数字、视频等。

要学习;了解更多信息,请参阅博文}。

有关使用多模态嵌入的教程,请参阅 使用 Voyage AI嵌入进行语义搜索。

后退

上下文化数据段嵌入

在此页面上