Incrustaciones multimodales

La API de incrustación y re clasificación se encuentra en Vista previa. La funcionalidad y la documentación correspondiente pueden cambiar en cualquier momento durante el periodo de vista previa.

Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de embeddigns multimodales de Voyage admiten texto, imágenes y video, como gráficos, fotos, presentaciones de diapositivas, capturas de pantalla de documentos y videoclips. Esto remueve la necesidad de extracción de texto o de pipelines ETL.

A diferencia de modelos multimodales como CLIP, que procesan texto, imágenes y videos por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y videos intercalados. La arquitectura de CLIP le impide ser utilizada en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y video a menudo se alinean con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo mediante el procesamiento de todas las entradas a través de una sola será.

Modelos disponibles

Modelo	Longitud del contexto	dimensión	Descripción
`voyage-multimodal-3.5`	32,000 tokens	1024 (por defecto), 256, 512, 2048	Modelo avanzado de integración multimodal que puede vectorizar texto e información visual intercalados, como capturas de pantalla de archivos PDF, diapositivas, tablas, gráficos, videos y mucho más. Para obtener más información, consulte la entrada de blog.

Modelos anteriores

Los siguientes modelos antiguos todavía están disponibles desde nuestra API, pero se recomienda utilizar los modelos nuevos mencionados anteriormente para obtener una mejor calidad y eficiencia.

Modelo	Longitud del contexto	dimensión	Descripción
`voyage-multimodal-3`	32,000 tokens	1024	Procesa texto e imágenes en representaciones unificadas. Admite imágenes desde 50,000 hasta 2 millones de píxeles. Para obtener más información, consulte la entrada de blog.

Tutorial

Para un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage IA.

Uso

Idioma

Volver

Embeddings de fragmentos contextualizados

Rerankers