Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Docs Menu
Docs Home
/

Incrustaciones multimodales

Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de embeddigns multimodales de Voyage admiten texto, imágenes y video, como gráficos, fotos, presentaciones de diapositivas, capturas de pantalla de documentos y videoclips. Esto remueve la necesidad de extracción de texto o de pipelines ETL.

A diferencia de modelos multimodales como CLIP, que procesan texto, imágenes y videos por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y videos intercalados. La arquitectura de CLIP le impide ser utilizada en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y video a menudo se alinean con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo mediante el procesamiento de todas las entradas a través de una sola será.

Modelo
Longitud del contexto
dimensión
Descripción

voyage-multimodal-3.5

32,000 tokens

1024 (por defecto), 256, 512, 2048

Modelo avanzado de integración multimodal que puede vectorizar texto e información visual intercalados, como capturas de pantalla de archivos PDF, diapositivas, tablas, gráficos, videos y mucho más.

Para obtener más información, consulte la entrada de blog.

Para un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage IA.

Volver

Embeddings de fragmentos contextualizados

En esta página