Learn the "why" behind slow queries and how to fix them in our 2-Part Webinar.
Register now >
Docs Menu
Docs Home
/

Incrustaciones multimodales

Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de incrustación multimodal de Voyage admiten texto, imágenes y vídeo, como figuras, fotos, presentaciones, capturas de pantalla de documentos y videoclips. Esto elimina la necesidad de extracción de texto o procesos ETL.

A diferencia de modelos multimodales como CLIP, que procesan texto, imágenes y videos por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y videos intercalados. La arquitectura de CLIP le impide ser utilizada en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y video a menudo se alinean con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo mediante el procesamiento de todas las entradas a través de una sola será.

Modelo
Longitud del contexto
Dimensiones
Descripción

voyage-multimodal-3.5

32,000 tokens

1024 (por defecto), 256, 512, 2048

Modelo de incrustación multimodal enriquecido que puede vectorizar texto intercalado y datos visuales, como capturas de pantalla de archivos PDF, diapositivas, tablas, figuras, videos y más.

Para obtener más información, consulte la publicación del blog.

Para un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage IA.

Volver

Embeddings de fragmentos contextualizados

En esta página