Menu Docs
Página inicial do Docs
/

Pesquisa semântica com incorporações do Voyage AI

Este guia descreve como realizar pesquisas semânticas com modelos de IA Voyage. Esta página inclui exemplos de casos de uso de pesquisa semântica básica e avançada, incluindo pesquisa com reclassificação, bem como recuperação multilíngue, multimodal, contextualizada e de grande corpus.

Diagrama do fluxo de trabalho da pesquisa semântica

Esta seção fornece exemplos de código para vários casos de uso de pesquisa semântica com diferentes modelos de IA Voyage. Para cada exemplo, você executa as mesmas etapas básicas:

  1. Incorpore os documentos: converta seus dados em incorporações vetoriais que capturam seu significado. Esses dados podem ser texto, imagens, blocos de documento ou um grande corpus de texto.

  2. Incorpore a query: Transforme sua query de pesquisa na mesma representação vetorial dos seus documentos.

  3. Encontrar documentos semelhantes: compare o vetor de query com os vetores de documento para identificar os resultados mais semanticamente semelhantes.

Trabalhe com uma versão executável deste tutorial como um bloco de anotações Python.

1

Antes de começar, crie um diretório de projeto , instale bibliotecas e defina a chave de API do modelo.

  1. Execute os seguintes comandos no seu terminal para criar um novo diretório para este tutorial e instalar as bibliotecas necessárias:

    mkdir voyage-semantic-search
    cd voyage-semantic-search
    pip install --upgrade voyageai numpy datasets
  2. Siga as etapas para criar uma chave de API de modelo e, em seguida, execute o seguinte comando em seu terminal para exportá-la como uma variável de ambiente:

    export VOYAGE_API_KEY="your-model-api-key"
2

Expanda cada seção para obter exemplos de código para cada tipo de pesquisa semântica.

A tabela a seguir resume os exemplos nesta página:

Exemplo
Modelo usado
Noções básicas sobre os resultados

Pesquisa semântica básica

voyage-4-large

O documento da chamada de conferência da Apple está em primeiro lugar, significativamente mais alto do que documentos não relacionados, demonstrando correspondência semântica precisa.

Pesquisa semântica com reranker

voyage-4-large e a rerank-2.5

A reclassificação melhora a precisão da pesquisa analisando todo o relacionamento query-documento . Enquanto a incorporação da similaridade por si só classifica o documento correto primeiro com uma pontuação moderada, o reclassificador aumenta significativamente sua pontuação de relevância, o que o separa melhor dos resultados irrelevantes.

Pesquisa semântica multilíngue

voyage-4-large

Os modelos de Voyage executam pesquisa semântica de forma eficaz em diferentes idiomas. O exemplo demonstra três pesquisas separadas em inglês, espanhol e chinês, cada uma identificando corretamente os documentos mais relevantes sobre os resultados de empresas de tecnologia em seus respectivos idiomas.

Pesquisa semântica multimodal

voyage-multimodal-3.5

O modelo oferece suporte a texto, imagem e vídeo intercalados, bem como pesquisa somente de imagem e somente vídeo. Em ambos os casos, as imagens de cães e gatos têm uma classificação significativamente mais alta do que a imagem não relacionada da bananeira, demonstrando recuperação precisa do conteúdo visual. Entradas intercaladas com texto descritivo produzem pontuações de similaridade ligeiramente mais altas do que entradas somente de imagem.

Embeddings de chunks contextualizados

voyage-context-3

O bloco de 15% de crescimento da receita está em primeiro lugar porque está vinculado ao documento da Leafy Inc. . As pontuações semelhantes de crescimento de chunk de 7% da Geophyllum} são mais baixas, mostrando como o modelo considera com precisão o contexto do documento para distinguir entre chunks semelhantes.

Pesquisa semântica com corpus grande

voyage-4-large

O documento de verdade sobre o conteúdo do usuário ocupa o primeiro lugar entre 154 documentos, demonstrando recuperação eficaz em escala, apesar da complexidade semântica.

A pesquisa semântica é um método de pesquisa que retorna resultados com base no significado semântica ou subjacente dos seus dados. Ao contrário da pesquisa tradicional de texto completo, que encontra correspondências de texto, a pesquisa semântica encontra vetores próximos à sua query de pesquisa no espaço multidimensional. Quanto mais próximos os vetores estiverem da sua query, mais semelhantes eles serão em significado.

Exemplo

A pesquisa de texto tradicional retorna apenas correspondências exatas, limitando os resultados quando os usuários pesquisam com termos diferentes dos que estão em seus dados. Por exemplo, se seus dados contiverem documentos sobre mouse de computador e mouse animal, procurar "mouse" quando você pretende encontrar informações sobre mouse de computador resultará em correspondências incorretas.

A pesquisa semântica, no entanto, captura o relacionamento subjacente entre palavras ou frases, mesmo quando não há sobreposição lexical. Pesquisar "mouse" ao indicar que você está procurando produtos de computador resulta em resultados mais relevantes. Isso ocorre porque a pesquisa semântica compara o significado semântica da query de pesquisa com seus dados para retornar somente os resultados mais relevantes, independentemente dos termos exatos da pesquisa.

Diagrama que demonstra similaridade semântica

Embora o armazenamento de seus vetores na memória e a implementação de seus próprios pipelines de pesquisa seja adequado para a criação de protótipos e experimentação, use um banco de dados vetorial e uma solução de pesquisa corporativa para aplicativos de produção, para que você possa realizar a recuperação eficiente a partir de um corpus maior.

O MongoDB tem suporte nativo para armazenamento e recuperação de vetores, sendo uma opção conveniente para armazenar e pesquisar incorporações de vetor junto com seus outros dados. Para concluir um tutorial sobre como executar a pesquisa semântica com o MongoDB Vector Search, consulte Como executar a pesquisa semântica em dados em seu cluster do Atlas .

Combine a pesquisa semântica com um LLM para implementar um aplicação RAG .

Próximo

RAG

Nesta página