Menu Docs
Página inicial do Docs
/

Incorporações multimodais

Os modelos de incorporação multimodal transformam dados não estruturados de várias formas em um espaço vetorial compartilhado. Os modelos de incorporação multimodal do Voyage oferecem suporte a texto, imagens e vídeo, como cifras, fotos, conjuntos de dialetos, capturas de tela de documento e trechos de vídeo. Isso remove a necessidade de extração de texto ou pipelines ETL.

Ao contrário dos modelos multimodais como o CLIP, que processam texto, imagens e vídeo separadamente, os modelos de incorporação multimodal do Voyage vetorizam entradas contendo texto, imagens e vídeo intercalados. A arquitetura do CLIP impede que ele seja usado em pesquisas de modo misto, pois os vetores de texto, imagem e vídeo geralmente se alinham com itens irrelevantes da mesma forma. Os modelos de incorporação multimodal do Voyage reduzem esse enviesamento ao processar todas as entradas por meio de um único backlink.

Modelo
Comprimento do contexto
Dimensões
Descrição

voyage-multimodal-3.5

32,000 tokens

1024 (padrão), 256, 512, 2048

Modelo de incorporação multimodal avançado que pode vetorizar texto intercalado e dados visuais, como capturas de tela de PDFs, diapositivas, tabelas, imagens, vídeos e muito mais.

Para saber mais, consulte a publicação do blog.

Para obter um tutorial sobre o uso de incorporações multimodais, consulte Pesquisa semântica com incorporações Voyage AI.

Voltar

Embeddings de chunks contextualizados

Nesta página