Como fazer a pesquisa híbrida

Uma pesquisa híbrida é uma agregação de diferentes métodos de pesquisa ou queries de pesquisa para critérios de query iguais ou semelhantes. Essa técnica utiliza algoritmos para classificar resultados e retornar resultados unificados dos diferentes métodos de pesquisa. Você pode usar o $rankFusion para realizar uma pesquisa híbrida.

O que é a fusão de classificação recíproca?

A fusão de classificação recíproca é uma técnica para combinar resultados de diferentes métodos de pesquisa em um único conjunto de resultados, executando as seguintes ações:

Calcula a classificação recíproca dos documentos nos resultados.
Para cada documento classificado em cada resultado da pesquisa, primeiro adicione a classificação (r) do documento com um número constante, 60 para suavizar a pontuação (rank_constant) e, em seguida, divida 1 pela soma de r e rank_constant para a classificação recíproca do documento nos resultados. Você não pode definir o valor de rank_constant, que retorna ao padrão de 60.
```
reciprocal_rank = 1 / ( r + rank_constant )
```
Para cada método de pesquisa, aplique pesos diferentes (w) para dar mais importância a esse método de pesquisa. Para cada documento, a classificação recíproca ponderada é calculada multiplicando o peso pela classificação recíproca do documento.
```
weighted_reciprocal_rank = w x reciprocal_rank
```
Combine as pontuações ponderadas e derivadas da classificação dos documentos nos resultados.
Para cada documento em todos os resultados de pesquisa, adicione as classificações recíprocas calculadas para uma única pontuação para o documento.
Classifique os resultados pela pontuação combinada dos documentos nos resultados.
Classifique os documentos nos resultados com base na pontuação combinada entre os resultados para obter uma lista única e combinada de documentos classificados nos resultados.

Sobre os diferentes casos de uso da pesquisa híbrida

Você pode aproveitar o MongoDB Vector Search para realizar vários tipos de pesquisa híbrida. Especificamente, o MongoDB Vector Search suporta os seguintes casos de uso:

Pesquisa vetorial e de texto completo em uma única query: é possível combinar resultados de diferentes métodos de pesquisa, como uma pesquisa semântica e de texto completo. Você pode usar o $vectorSearch para a pesquisa semântica e o $search para os resultados da pesquisa de texto completo e combinar os resultados usando a técnica de fusão de classificação recíproca. Para saber mais, consulte o tutorial Executar pesquisa híbrida com Vector Search MongoDB e MongoDB Search, que demonstra como executar uma pesquisa semântica e uma pesquisa de texto completo no namespace sample_mflix.embedded_movies e recuperar resultados classificados combinados usando a fusão recíproca de classificações.
Como alternativa, para uma pesquisa híbrida mais granular, em que a pontuação é importante, além da ordem relativa dos resultados, você pode usar o estágio de pipeline $scoreFusion. Para saber mais, consulte o tutorial Executar pesquisa híbrida com Vector Search do MongoDB e MongoDB Search, que demonstra como executar uma pesquisa semântica e uma pesquisa de texto completo no namespace sample_mflix.embedded_movies e recuperar os resultados do pipeline de entrada em um conjunto de resultados da pontuação final.
Enquanto $rankFusion classifica documentos com base em suas posições (classificações relativas) em pipelines de entrada usando o algoritmo Reciprocal Class Fusion, $scoreFusion classifica documentos com base em pontuações atribuídas pelos pipelines de entrada, usando expressões matemáticas para combinar os resultados.
No $rankFusion, as classificações são influenciadas pelos pesos do pipeline. No $scoreFusion, os pesos controlam a contribuição das pontuações de cada pipeline para o resultado final.
Múltiplas queries de pesquisa vetorial em uma única query: o pipeline $rankFusion do MongoDB suporta múltiplos sub-pipelines que contêm queries de pesquisa vetorial executadas na mesma coleção e combinam seus resultados usando a técnica de fusão de classificação recíproca. O tutorial Como combinar múltiplas queries $vectorSearch demonstra os seguintes tipos de pesquisa vetorial:
- Realize uma pesquisa abrangente no seu conjunto de dados por termos semanticamente semelhantes na mesma query.
- Pesquise vários campos no seu conjunto de dados para determinar quais deles retornam os melhores resultados para a query.
- Pesquise usando incorporações de diferentes modelos de incorporação para determinar as diferenças de interpretação semântica entre os diferentes modelos.

Considerações

Ao usar o estágio de pipeline $rankFusion ou $scoreFusion para pesquisa híbrida, considere o seguinte.

Conjuntos de Resultados Disjuntos

Se você deseja capturar falsos negativos que uma metodologia de pesquisa não conseguiu detectar, pode ser aceitável ter resultados desconexos de sub-pipelines individuais. Quando há resultados disjuntos, a maioria ou todos os resultados podem parecer ter sido retornados de um dos pipelines e não do outro. No entanto, se você deseja que todas as sub-pipelines retornem resultados semelhantes, tente aumentar o número de resultados por sub-pipeline.

Pesos

Recomendamos atribuir pesos às queries lexicais e vetoriais individualmente, em vez de usar pesos estáticos para todas as queries. Essa prática melhora a relevância dos resultados para cada query. Isso também aprimora a utilização dos recursos de computação, alocando os recursos para a query mais necessitada.

Múltiplos Pipelines

Você pode combinar um número arbitrário de subpipelines no estágio $rankFusion ou $scoreFusion, mas todos eles devem ser executados na mesma collection. Você não pode usar o estágio $rankFusion ou $scoreFusion para pesquisar coleções. Use o estágio $unionWith com $vectorSearch para pesquisa entre coleções.

Pipelines que não são de pesquisa

Recomendamos usar $match, $sort, e assim por diante em seu pipeline para impulsionar campos específicos na sua coleção sem precisar de um pipeline de pesquisa.

Relevância geoespacial

Você pode usar o $geoNear e o operador próximo dentro do $search para uma pesquisa de localização geográfica dentro do estágio $rankFusion ou $scoreFusion. No entanto, o $geoNear e o operador próximo utilizam estruturas de referência de coordenadas diferentes. Portanto, os ordinais de resultados e as pontuações podem não ser idênticos.

Limite os resultados

Recomendamos definir limites para o número de resultados a serem retornados para cada sub-pipeline. Se o estágio de pipeline dentro do pipeline de entrada $rankFusion ou $scoreFusion não suportar a limitação do número de resultados (como $search), recomendamos que você use $limit posteriormente dentro do pipeline de entrada para limitar o número de documentos que $rankFusion ou $scoreFusion avalia.

Pré-filtros avançados

Recomendamos usar vectorSearch (MongoDB Search Operator) para pré-filtrar dados para pesquisa vetorial usando operadores $search que incluem funcionalidades de texto analisado, como pesquisa difusa, correspondência de frases, filtragem de localização, correspondência de padrões curinga e assim por diante.

Limitações

As seguintes limitações se aplicam à pesquisa híbrida utilizando $rankFusion e $scoreFusion:

$rankFusion só é suportado no MongoDB 8.0 e posterior (incluindo a versão mais recente com upgrades automáticos). $scoreFusion está disponível em v8.2+.
Observação
Ao fazer upgrade do 8.0, talvez seja necessário pausar a execução de queries $rankFusion.
$rankFusion e subpipelines $scoreFusion podem conter apenas os seguintes estágios:
$rankFusion e $scoreFusion preservar um link rastreável de volta para o documento de entrada original para cada subpipeline. Portanto, ele não suporta o seguinte:
- $project estágio
- Campos storedSource
$rankFusion e $scoreFusion subpipelines são executados em série, não em paralelo.
$rankFusion e $scoreFusion não suportam paginação.
rankFusion pode ser executado em Visualizações somente em clusters que executam MongoDB 8.0 ou superior. Você não pode executar rankFusion dentro de uma definição de visualização ou em uma coleção de séries temporais.

Pré-requisitos

Para experimentar estes tutoriais, você deve ter o seguinte:

Um cluster com versão v8.0 do MongoDB ou posterior.
O acesso Project Data Access Admin ao projeto para criar índices de pesquisa do MongoDB pesquisa vetorial e do MongoDB Search.
O banco de dados sample_mflix carregado em seu cluster.
mongosh ou MongoDB Compass para criar os índices e tentar as queries em seu cluster.
Observação
Você também pode experimentar esses casos de uso de pesquisa híbrida com sistemas locais do Atlas que você cria com o Atlas CLI e em seus sistemas autogerenciados (on-premises). Para saber mais, consulte Criar uma implantação de Atlas local.

Voltar

Pesquisa semântica para texto

Pesquisa vetorial combinada e pesquisa de texto completo