Incrustaciones multimodales

La API de incrustación y reclasificación está disponible Vista previa. La función y la documentación correspondiente pueden cambiar en cualquier momento durante el período de vista previa.

Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de incrustación multimodal de Voyage admiten texto, imágenes y vídeo, como figuras, fotos, presentaciones, capturas de pantalla de documentos y videoclips. Esto elimina la necesidad de extracción de texto o procesos ETL.

A diferencia de los modelos multimodales como CLIP, que procesan texto, imágenes y vídeo por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y vídeo intercalados. La arquitectura de CLIP impide su uso en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y vídeo suelen alinearse con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo al procesar todas las entradas a través de una única estructura principal.

Modelos disponibles

Modelo	Longitud del contexto	Dimensiones	Descripción
`voyage-multimodal-3.5`	32,000 tokens	1024 (predeterminado), 256, 512, 2048	Modelo de incrustación multimodal enriquecido que puede vectorizar texto intercalado y datos visuales, como capturas de pantalla de archivos PDF, diapositivas, tablas, figuras, videos y más. Para obtener más información, consulte la publicación del blog.

Modelos más antiguos

Los siguientes modelos más antiguos aún están accesibles desde nuestra API, pero recomendamos utilizar los nuevos modelos mencionados anteriormente para lograr una mejor calidad y eficiencia.

Modelo	Longitud del contexto	Dimensiones	Descripción
`voyage-multimodal-3`	32,000 tokens	1024	Procesa texto e imágenes en representaciones unificadas. Admite imágenes desde 50,000 hasta 2 millones de píxeles. Para obtener más información, consulte la entrada de blog.

Tutorial

Para obtener un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage AI.

Uso

Idioma

Volver

Incrustaciones de fragmentos contextualizados

Rerankers