Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de incrustación multimodal de Voyage admiten texto, imágenes y vídeo, como figuras, fotos, presentaciones, capturas de pantalla de documentos y videoclips. Esto elimina la necesidad de extracción de texto o procesos ETL.
A diferencia de los modelos multimodales como CLIP, que procesan texto, imágenes y vídeo por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y vídeo intercalados. La arquitectura de CLIP impide su uso en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y vídeo suelen alinearse con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo al procesar todas las entradas a través de una única estructura principal.
Modelos disponibles
Modelo | Longitud del contexto | Dimensiones | Descripción |
|---|---|---|---|
| 32,000 tokens | 1024 (predeterminado), 256, 512, 2048 | Modelo de incrustación multimodal enriquecido que puede vectorizar texto intercalado y datos visuales, como capturas de pantalla de archivos PDF, diapositivas, tablas, figuras, videos y más. Para obtener más información, consulte la publicación del blog. |
Modelo | Longitud del contexto | Dimensiones | Descripción |
|---|---|---|---|
| 32,000 tokens | 1024 | Procesa texto e imágenes en representaciones unificadas. Admite imágenes desde 50,000 hasta 2 millones de píxeles. Para obtener más información, consulte la entrada de blog. |
Tutorial
Para obtener un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage AI.