Join us at MongoDB.local London on 7 May to unlock new possibilities for your data. Use WEB50 to save 50%.
Register now >
Menu Docs
Página inicial do Docs
/ /

Propriedades do índice de texto em sistemas autogerenciados

Observação

O MongoDB oferece uma solução aprimorada de pesquisa de texto completo, MongoDB Search, e uma solução de pesquisa semântica, MongoDB Vector Search. Recomendamos usar índices do MongoDB Search ou índices do MongoDB Vector Search em vez de índices de texto.

Esta página descreve o comportamento dos índices de texto versão 3 .

Os índices de texto diferenciam maiúsculas de minúsculas. O índice de texto não faz distinção entre caracteres em maiúsculas e minúsculas, como e e E.

Os índices de texto suportam dobramentos de maiúsculas e minúsculas, conforme especificado no Unicode 8.0 Dobramento de maiúsculas e minúsculas do banco de dados:

  • C comum

  • S simples

  • T especial para idiomas Turcos

  • Caracteres com diacríticos, como é e É

  • Caracteres de alfabetos não latinos, como И e и no alfabeto cirílico.

As versões anteriores do índice de texto diferenciam maiúsculas de minúsculas apenas para caracteres latinos não diacríticos [A-z]. Versões anteriores do índice de texto tratam todos os outros caracteres como distintos.

Os índices de texto são insensíveis a diacríticos. O índice de texto não faz distinção entre caracteres que contêm diacríticos e suas contrapartes sem sinais, como é, ê e e. Mais especificamente, o índice de texto remove as marcações categorizadas como diacríticos na Lista de acessórios do banco de dados de caracteres Unicode 8.0 .

As versões anteriores do índice de texto tratam caracteres com diacríticos como distintos.

Para tokenização, os índices de texto usam os delimitadores categorizados em Dash, Hyphen, Pattern_Syntax, Quotation_Mark, Terminal_Punctuation e White_Space na Unicode 8.0 Lista de suporte do banco de dados de caracteres.

Por exemplo, na string Il a dit qu'il «était le meilleur joueur du monde», as aspas («, ») e espaços são delimitadores.

Versões anteriores do índice tratam « como parte do termo «était e » como parte do termo monde».

Os índices de texto tokenizam e lematizam os termos nos campos indexados das entradas do índice. O índice usa a lematização simples de sufixos específicos do idioma. Para cada documento na coleção, o índice de texto armazena uma entrada de índice para cada termo com haste exclusivo em cada field indexado.

O MongoDB suporta queries $text para vários idiomas. Os índices de texto usam derivação simples de sufixo específico do idioma. Os índices de texto também descartam palavras vazias específicas da linguagem, como the, an, a e and em inglês. Para obter uma lista dos idiomas suportados, consulte $text linguagens de query em implantações autogerenciados.

Para especificar um idioma para o índice de texto, consulte Especificar idioma para índices de texto no MongoDB autogerenciado.

Os índices de texto são sempre esparsos. Ao criar um índice de texto, o MongoDB ignora a opção sparse.

Se um documento existente ou recém-inserido não tiver um campo de índice de texto (ou o campo for nulo ou uma matriz vazia), o MongoDB não adicionará uma entrada de índice de texto para o documento.

Para saber mais sobre as restrições de índice de texto, consulte Versões do índice de texto em sistemas autogerenciados.

Voltar

Limitar o número de entradas de índices de texto verificadas

Nesta página