Os modelos de incorporação multimodal transformam dados não estruturados de várias formas em um espaço vetorial compartilhado. Os modelos de incorporação multimodal do Voyage oferecem suporte a texto, imagens e vídeo, como cifras, fotos, conjuntos de dialetos, capturas de tela de documento e trechos de vídeo. Isso remove a necessidade de extração de texto ou pipelines ETL.
Ao contrário dos modelos multimodais como o CLIP, que processam texto, imagens e vídeo separadamente, os modelos de incorporação multimodal do Voyage vetorizam entradas contendo texto, imagens e vídeo intercalados. A arquitetura do CLIP impede que ele seja usado em pesquisas de modo misto, pois os vetores de texto, imagem e vídeo geralmente se alinham com itens irrelevantes da mesma forma. Os modelos de incorporação multimodal do Voyage reduzem esse enviesamento ao processar todas as entradas por meio de um único backlink.
Modelos disponíveis
Modelo | Comprimento do contexto | Dimensões | Descrição |
|---|---|---|---|
| 32,000 tokens | 1024 (padrão), 256, 512, 2048 | Modelo de incorporação multimodal avançado que pode vetorizar texto intercalado e dados visuais, como capturas de tela de PDFs, diapositivas, tabelas, imagens, vídeos e muito mais. Para saber mais, consulte a publicação do blog. |
Modelo | Comprimento do contexto | Dimensões | Descrição |
|---|---|---|---|
| 32,000 tokens | 1024 | Processa texto e imagens em incorporações unificadas. Suporta imagens de 50,000 a 2 milhões de pixels. Para saber mais, consulte a publicação do blog. |
Tutorial
Para obter um tutorial sobre o uso de incorporações multimodais, consulte Pesquisa semântica com incorporações Voyage AI.