Para agentes de IA: um índice de documentação está disponível em https://www.mongodb.com/pt-br/docs/llms.txt — as versões de markdown de todas as páginas estão disponíveis anexando .md a qualquer caminho de URL.
Menu Docs

Incorporações multimodais

Os modelos de incorporação multimodal transformam dados não estruturados de várias formas em um espaço vetorial compartilhado. Os modelos de incorporação multimodal do Voyage oferecem suporte a texto, imagens e vídeo, como cifras, fotos, conjuntos de dialetos, capturas de tela de documento e trechos de vídeo. Isso remove a necessidade de extração de texto ou pipelines ETL.

Ao contrário dos modelos multimodais como o CLIP, que processam texto, imagens e vídeo separadamente, os modelos de incorporação multimodal do Voyage vetorizam entradas contendo texto, imagens e vídeo intercalados. A arquitetura do CLIP impede que ele seja usado em pesquisas de modo misto, pois os vetores de texto, imagem e vídeo geralmente se alinham com itens irrelevantes da mesma forma. Os modelos de incorporação multimodal do Voyage reduzem esse enviesamento ao processar todas as entradas por meio de um único backlink.

Modelo
Comprimento do contexto
Dimensões
Descrição

voyage-multimodal-3.5

32,000 tokens

1024 (padrão), 256, 512, 2048

Modelo de incorporação multimodal avançado que pode vetorizar texto intercalado e dados visuais, como capturas de tela de PDFs, diapositivas, tabelas, imagens, vídeos e muito mais.

Para saber mais, consulte a publicação no blog.

Os modelos mais antigos a seguir ainda podem ser acessados a partir da nossa API, mas recomendamos o uso dos novos modelos acima para melhor qualidade e eficiência.

Modelo
Comprimento do contexto
Dimensões
Descrição

voyage-multimodal-3

32,000 tokens

1024

Processa texto e imagens em incorporações unificadas. Suporta imagens de 50,000 a 2 milhões de pixels.

Para saber mais, consulte a publicação no blog.

Para obter um tutorial sobre o uso de incorporações multimodais, consulte Pesquisa semântica com incorporações Voyage AI.