Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de incrustación multimodal de Voyage admiten texto, imágenes y vídeo, como figuras, fotos, presentaciones, capturas de pantalla de documentos y videoclips. Esto elimina la necesidad de extracción de texto o procesos ETL.
A diferencia de modelos multimodales como CLIP, que procesan texto, imágenes y videos por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y videos intercalados. La arquitectura de CLIP le impide ser utilizada en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y video a menudo se alinean con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo mediante el procesamiento de todas las entradas a través de una sola será.
Modelos disponibles
Modelo | Longitud del contexto | Dimensiones | Descripción |
|---|---|---|---|
| 32,000 tokens | 1024 (por defecto), 256, 512, 2048 | Modelo de incrustación multimodal enriquecido que puede vectorizar texto intercalado y datos visuales, como capturas de pantalla de archivos PDF, diapositivas, tablas, figuras, videos y más. Para obtener más información, consulte la publicación del blog. |
Modelo | Longitud del contexto | Dimensiones | Descripción |
|---|---|---|---|
| 32,000 tokens | 1024 | Procesa texto e imágenes en representaciones unificadas. Admite imágenes desde 50,000 hasta 2 millones de píxeles. Para obtener más información, consulte la entrada de blog. |
Tutorial
Para un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage IA.