Para agentes de IA: hay un índice de documentación disponible en https://www.mongodb.com/es/docs/llms.txt — versiones en markdown de todas las páginas están disponibles agregando .md a cualquier ruta URL.
Docs Menu

Incrustaciones multimodales

Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de embeddigns multimodales de Voyage admiten texto, imágenes y video, como gráficos, fotos, presentaciones de diapositivas, capturas de pantalla de documentos y videoclips. Esto remueve la necesidad de extracción de texto o de pipelines ETL.

A diferencia de modelos multimodales como CLIP, que procesan texto, imágenes y videos por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y videos intercalados. La arquitectura de CLIP le impide ser utilizada en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y video a menudo se alinean con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo mediante el procesamiento de todas las entradas a través de una sola será.

Modelo
Longitud del contexto
dimensión
Descripción

voyage-multimodal-3.5

32,000 tokens

1024 (por defecto), 256, 512, 2048

Modelo avanzado de integración multimodal que puede vectorizar texto e información visual intercalados, como capturas de pantalla de archivos PDF, diapositivas, tablas, gráficos, videos y mucho más.

Para obtener más información, consulte la entrada de blog.

Los siguientes modelos antiguos todavía están disponibles desde nuestra API, pero se recomienda utilizar los modelos nuevos mencionados anteriormente para obtener una mejor calidad y eficiencia.

Modelo
Longitud del contexto
dimensión
Descripción

voyage-multimodal-3

32,000 tokens

1024

Procesa texto e imágenes en representaciones unificadas. Admite imágenes desde 50,000 hasta 2 millones de píxeles.

Para obtener más información, consulte la entrada de blog.

Para un tutorial sobre el uso de embeddings multimodales, consulte Búsqueda semántica con embeddings de Voyage AI.