Incorporações multimodais

Os modelos de incorporação multimodal transformam dados não estruturados de várias formas em um espaço vetorial compartilhado. Os modelos de incorporação multimodal do Voyage oferecem suporte a texto, imagens e vídeo, como cifras, fotos, conjuntos de dialetos, capturas de tela de documento e trechos de vídeo. Isso remove a necessidade de extração de texto ou pipelines ETL.

Ao contrário dos modelos multimodais como o CLIP, que processam texto, imagens e vídeo separadamente, os modelos de incorporação multimodal do Voyage vetorizam entradas contendo texto, imagens e vídeo intercalados. A arquitetura do CLIP impede que ele seja usado em pesquisas de modo misto, pois os vetores de texto, imagem e vídeo geralmente se alinham com itens irrelevantes da mesma forma. Os modelos de incorporação multimodal do Voyage reduzem esse enviesamento ao processar todas as entradas por meio de um único backlink.

Modelos disponíveis

Modelo	Comprimento do contexto	Dimensões	Descrição
`voyage-multimodal-3.5`	32,000 tokens	1024 (padrão), 256, 512, 2048	Modelo de incorporação multimodal avançado que pode vetorizar texto intercalado e dados visuais, como capturas de tela de PDFs, diapositivas, tabelas, imagens, vídeos e muito mais. Para saber mais, consulte a publicação no blog.

Modelos mais antigos

Os modelos mais antigos a seguir ainda podem ser acessados a partir da nossa API, mas recomendamos o uso dos novos modelos acima para melhor qualidade e eficiência.

Modelo	Comprimento do contexto	Dimensões	Descrição
`voyage-multimodal-3`	32,000 tokens	1024	Processa texto e imagens em incorporações unificadas. Suporta imagens de 50,000 a 2 milhões de pixels. Para saber mais, consulte a publicação no blog.

Tutorial

Para obter um tutorial sobre o uso de incorporações multimodais, consulte Pesquisa semântica com incorporações Voyage AI.

Uso

Linguagem

Voltar

Embeddings de partes contextualizadas

Rerankers