Menu Docs

Página inicial do DocsIniciar e gerenciar o MongoDBMongoDB Atlas

Analisador simples

O analisador simple divide o texto em termos pesquisáveis (tokens) onde quer que ele encontre um caractere que não seja uma letra, como espaços em branco, pontuação ou um ou mais dígitos. Converte todo o texto em minúsculas.

Importante

O Atlas Search não indexará campos de string que excedam 32766 bytes de tamanho.

A seguinte definição de índice de exemplo especifica um índice no campo title na coleção sample_mflix.movies utilizando o analisador simple. Se você carregou a coleção no seu cluster, você poderá criar o índice de exemplo utilizando o Atlas UI Visual Editor ou o JSON Editor. Após selecionar o método de configuração de sua preferência, selecione o banco de dados e a coleção.

A seguinte query pesquisa o termo lion no campo title e limita a saída a cinco resultados.

1db.movies.aggregate([
2 {
3 "$search": {
4 "text": {
5 "query": "lion",
6 "path": "title"
7 }
8 }
9 },
10 {
11 "$limit": 5
12 },
13 {
14 "$project": {
15 "_id": 0,
16 "title": 1
17 }
18 }
19])
[
{ title: 'White Lion' },
{ title: 'The Lion King' },
{ title: 'The Lion King 1 1/2' },
{ title: 'The Lion King 1 1/2' },
{ title: 'Lion's Den' },
]

O Atlas Search retorna esses documentos fazendo o seguinte para o texto no campo title usando o analisador lucene.simple :

  • Converta texto em minúsculas.

  • Crie tokens separados dividindo o texto sempre que houver um caractere que não seja uma letra.

A tabela seguinte mostra os tokens que o Atlas Search cria utilizando o Simple Analyzer e, por outro lado, o Standard Analyzer e o Whitespace Analyzer para os documentos nos resultados:

Título
Tokens de analisador simples
Tokens de analisador padrão
Tokens do analisador de espaço em branco
White Lion
white, lion
white, lion
White, Lion
The Lion King
the, lion, king
the, lion, king
The, Lion, King
The Lion King 1 1/2
the, lion, king
the, lion, king, 1, 1, 2
The, Lion, King, 1, 1/2
Lion's Den
lion, s, den
lion's, den
Lion's, Den

O Atlas Search retorna o documento Lion's Den nos resultados porque o analisador simple cria um token separado para lion, que corresponde ao termo de query lion. Por outro lado, se você indexar o campo usando o Standard Analyzer ou o Whitespace Analyzer, o Atlas Search retornará alguns dos documentos nos resultados da query, mas não Lion's Den porque esses analisadores criariam os tokens lion's e Lion's respectivamente, mas não crie um token para lion.

← Analisador padrão