Docs Menu
Docs Home
/

Incrustaciones multimodales

Los modelos de incrustación multimodal transforman datos no estructurados de múltiples modalidades en un espacio vectorial compartido. Los modelos de incrustación multimodal de Voyage admiten texto, imágenes y vídeo, como figuras, fotos, presentaciones, capturas de pantalla de documentos y videoclips. Esto elimina la necesidad de extracción de texto o procesos ETL.

A diferencia de los modelos multimodales como CLIP, que procesan texto, imágenes y vídeo por separado, los modelos de incrustación multimodal de Voyage vectorizan entradas que contienen texto, imágenes y vídeo intercalados. La arquitectura de CLIP impide su uso en búsquedas de modalidad mixta, ya que los vectores de texto, imagen y vídeo suelen alinearse con elementos irrelevantes de la misma modalidad. Los modelos de incrustación multimodal de Voyage reducen este sesgo al procesar todas las entradas a través de una única estructura principal.

Modelo
Longitud del contexto
Dimensiones
Descripción

voyage-multimodal-3.5

32,000 tokens

1024 (predeterminado), 256, 512, 2048

Modelo de incrustación multimodal enriquecido que puede vectorizar texto intercalado y datos visuales, como capturas de pantalla de archivos PDF, diapositivas, tablas, figuras, videos y más.

Para obtener más información, consulte la publicación del blog.

Para obtener un tutorial sobre el uso de incrustaciones multimodales, consulte Búsqueda semántica con incrustaciones de Voyage AI.

Volver

Incrustaciones de fragmentos contextualizados

En esta página