Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de embeddigns multimodales de Voyage admiten texto, imágenes y video, como gráficos, fotos, presentaciones de diapositivas, capturas de pantalla de documentos y videoclips. Esto remueve la necesidad de extracción de texto o de pipelines ETL.
A diferencia de modelos multimodales como CLIP, que procesan texto, imágenes y videos por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y videos intercalados. La arquitectura de CLIP le impide ser utilizada en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y video a menudo se alinean con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo mediante el procesamiento de todas las entradas a través de una sola será.
Modelos disponibles
Modelo | Longitud del contexto | dimensión | Descripción |
|---|---|---|---|
| 32,000 tokens | 1024 (por defecto), 256, 512, 2048 | Modelo avanzado de integración multimodal que puede vectorizar texto e información visual intercalados, como capturas de pantalla de archivos PDF, diapositivas, tablas, gráficos, videos y mucho más. Para obtener más información, consulte la entrada de blog. |
Modelo | Longitud del contexto | dimensión | Descripción |
|---|---|---|---|
| 32,000 tokens | 1024 | Procesa texto e imágenes en representaciones unificadas. Admite imágenes desde 50,000 hasta 2 millones de píxeles. Para obtener más información, consulte la entrada de blog. |
Tutorial
Para un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage IA.