/ /

/ /

$text (쿼리 자 연산자)

참고

MongoDB는 향상된 전체 텍스트 검색 솔루션, MongoDB Search, 그리고 시맨틱 검색 솔루션, MongoDB Vector Search를 제공합니다. $text 연산자 대신 $search, $searchMeta 또는 $vectorSearch 단계를 사용하는 것이 좋습니다.

이 페이지에서는 자체 관리 배포를 위한 $text 연산자에 대해 설명합니다.

정의

$text: $text 텍스트 인덱스로 인덱싱된 필드에 대해 텍스트 쿼리수행합니다.

호환성

다음 환경에서 호스팅되는 배포에 $text 사용할 수 있습니다.

MongoDB Atlas: 클라우드에서의 MongoDB 배포를 위한 완전 관리형 서비스

MongoDB Enterprise: MongoDB의 구독 기반 자체 관리 버전
MongoDB Community: MongoDB의 소스 사용 가능 무료 자체 관리 버전

구문

$text 표현식의 구문은 다음과 같습니다.

{
  $text: {
    $search: <string>,
    $language: <string>,
    $caseSensitive: <boolean>,
    $diacriticSensitive: <boolean>
  }
}

$text 연산자 이러한 필드를 허용합니다.

필드	유형	설명
`$search`	문자열	MongoDB 텍스트 인덱스 쿼리 위해 구문 분석하고 사용하는 용어의 문자열입니다. MongoDB는 정확한 문자열을 지정하지 않는 한 용어에 대해 논리적 `OR` 쿼리를 수행합니다. 자세한 내용은 동작 을 참조하세요.
`$language`	문자열	선택 사항. 중지 단어, 형태소 분석기 및 토크나이저 규칙을 결정하는 언어 입니다. 기본값은 인덱스 언어 입니다. 지원되는 언어는 자체 관리형 배포서버의 $text 쿼리 언어를 참조하세요. `default_language` 값을 `none`으로 지정하면 텍스트 인덱스는 중단어(stop word)를 포함하여 필드에 있는 각 단어를 구문 분석하고 접미사 어간(stemming)은 무시합니다.
`$caseSensitive`	부울	선택 사항. 대소문자 구분을 활성화합니다. 기본값은 `false`입니다. 대소문자 구분 안 함을 참조하세요.
`$diacriticSensitive`	부울	선택 사항. 버전 3 텍스트 인덱스에 대해 발음 부호 민감도를 활성화합니다. 기본값은 `false`입니다. 이전 텍스트 인덱스 버전은 항상 발음 구별 부호를 구분합니다. 분음 부호 무시를 참조하세요.

기본값 으로 $text 는 점수별로 결과를 정렬하지 않습니다. 점수 정렬에 대한 자세한 내용은 텍스트 점수 를 참조하세요.

행동

제한 사항

쿼리 $text 표현식 하나만 지정할 수 있습니다.
$text $nor 표현식에 나타날 수 없습니다.
$text $elemMatch 쿼리 또는 프로젝션 표현식에 나타날 수 없습니다.
$text을(를) 사용하려면 모든 $or 절은 인덱싱되어야 합니다.
쿼리에 $text 표현식이 포함된 경우 hint()를 사용하여 쿼리에 사용할 인덱스를 지정할 수 없습니다.
$text 이 포함된 쿼리는 $natural 정렬을 사용할 수 없습니다.
특수 텍스트 인덱스가 필요한 $text 표현식과 다른 유형의 특수 인덱스가 필요한 쿼리 연산자를 결합할 수 없습니다. 예를 들어 $text 표현식을 $near 연산자와 결합할 수 없습니다.
보기는 $text을(를) 지원하지 않습니다.
Stable API V1 는 인덱스 생성을 위한 $text 를 지원 하지 않습니다.

$text 연산자를 집계에 사용하는 경우 다음 제한 사항도 적용됩니다.

$text를 포함하는 $match 단계는 파이프라인의 첫 번째 단계여야 합니다.
$text 연산자는 단계에서 한 번만 나타날 수 있습니다.
$text 연산자 표현식은 $or 또는 $not 표현식에 나타날 수 없습니다.
$text기본적으로 일치하는 점수순으로 일치하는 문서를 반환하지 않습니다. 내림차순 점수를 기준으로 정렬하려면 $sort 단계에서 $meta 집계 표현식을 사용합니다.

`$search` 필드

$search 필드에 MongoDB가 텍스트 인덱스쿼리 데 사용하는 단어를 지정합니다.

참고

$search 필드 MongoDB Atlas $ 검색 집계 단계와 다릅니다. $search 단계는 전체 텍스트 검색 제공하며 MongoDB Atlas 에서만 사용할 수 있습니다.

정확한 문자열

개별 텀 대신 여러 단어로 구성된 정확한 string을 일치시키려면 다음과 같이 string을 이스케이프된 double(\")로 묶습니다.

"\"ssl certificate\""

$text 작업의 $search 문자열에 여러 단어로 된 문자열과 개별 용어가 포함된 경우 $text 는 여러 단어 문자열을 포함하는 문서와만 일치합니다.

예시 들어, 이 $search string은 정확한 string "ssl certificate"이 포함된 문서를 반환합니다.

"\"ssl certificate\" authority key"

부정

단어를 부정하려면 단어 앞에 하이픈 빼기(-)를 붙입니다.

부정 단어는 결과 설정하다 에서 부정 단어가 포함된 문서를 제외합니다.
부정 단어만 있는 string은 문서와 일치하지 않습니다.
pre-market 과 같이 하이픈으로 연결된 단어는 부정이 아닙니다. MongoDB 하이픈을 구분 기호로 취급합니다. market을 부정하려면 pre -market를 사용합니다.

MongoDB 논리적 AND이 있는 작업에 모든 부정을 적용합니다.

매치 작업

중지 단어

MongoDB 영어에서 the 및 and 와 같은 언어별 불용어를 무시합니다.

어간 단어

대소문자 및 분음 부호를 구분하지 않는 경우 $text 은 전체 어간 단어와 일치합니다. 문서 필드 에 blueberry이 포함되어 있으면 blue 의 $search 텀 일치하지 않습니다. 그러나 blueberry 또는 blueberries 는 일치합니다.

대소문자 구분 및 어간 추출

대소문자 구분이 활성화된($caseSensitive: true) 상태에서 접미사 어간에 대문자가 포함되어 있으면 $text 이(가) 정확한 단어와 일치합니다.

발음 구별 기호 인식 및 어간 단어

분음 부호 민감도 를 활성화($diacriticSensitive: true)한 상태에서 접미사 어간에 분음 부호 표시가 포함되어 있으면 $text 가 정확한 단어와 일치합니다.

대소문자 구분 안 함

$text 기본값은 텍스트 인덱스의 대소문자를 구분하지 않습니다.

버전 3 텍스트 인덱스 는 분음 부호가 있거나 없는 라틴 문자 및 키릴 문자와 같은 라틴 문자가 아닌 문자의 대소문자를 구분하지 않습니다.
이전 버전에서는 분음 부호가 없는 라틴 문자([A-z])의 대소문자를 구분하지 않습니다.

대소문자 구분 활성화

텍스트 인덱스 대소문자를 구분하지 않는 경우 대소문자 구분을 활성화 하려면 $caseSensitive: true 를 지정합니다.

대소문자 구분 프로세스

$caseSensitive: true 이고 텍스트 인덱스 대소문자를 구분하지 않는 경우 $text은 다음과 같습니다.

대소문자를 구분하지 않는 일치 항목과 발음 부호를 구분하지 않는 일치 항목에 대한 텍스트 인덱스 쿼리합니다.
지정된 대소문자와 일치하는 문서만 반환하도록 결과를 필터링합니다.

$caseSensitive: true 및 접미사 어간에 대문자가 포함된 경우 $text 는 정확한 단어와 일치합니다.

$caseSensitive: true 를 활성화하면 성능이 저하될 수 있습니다.

발음 구별 기호 무시

$text 기본값은 텍스트 인덱스의 분음 부호를 무시합니다.

버전 3 텍스트 인덱스 는 분음 부호를 구분하지 않습니다. 인덱스 분음 부호가 있는 문자와 표시되지 않은 문자(é, ê, e)를 구분하지 않습니다.
이전 버전은 발음 부호를 구분합니다.

분음 부호 민감도 활성화

버전 3 텍스트 인덱스에서 발음 부호 구분을 활성화 하려면 $diacriticSensitive: true 를 지정합니다.

이전 텍스트 인덱스 버전은 항상 분음 부호를 구분하므로 $diacriticSensitive 은 아무런 효과가 없습니다.

발음 구별 기호 인식 과정

버전 3 텍스트 인덱스 및 $diacriticSensitive: true 사용 시, $text:

분음 부호를 구분하지 않는 텍스트 인덱스 쿼리합니다.
결과를 필터하여 지정된 텀의 발음 부호와 일치하는 문서만 반환합니다.

$diacriticSensitive: true 를 활성화하면 성능이 저하될 수 있습니다.

이전 텍스트 인덱스 버전에서는 $diacriticSensitive: true 가 이미 발음 구별 부호를 구분하는 텍스트 인덱스 쿼리합니다.

$diacriticSensitive: true 및 접미사 어간에 분음 부호가 포함된 경우 $text 는 정확한 단어와 일치합니다.

팁

어간 단어

텍스트 점수

$text 연산자는 각 결과 문서에 점수를 할당합니다. 점수는 주어진 쿼리에 대한 문서의 관련성을 나타냅니다. 점수는 sort() 메서드 사양의 일부일 수도 있고 프로젝션 표현식의 일부일 수도 있습니다. { $meta: "textScore" } 표현식은 $text 작업 처리에 대한 정보를 제공합니다. $meta 프로젝션 연산자를 참조하여 프로젝션 또는 정렬을 위해 점수에 액세스하는 방법에 대한 자세한 내용을 확인하세요.

메모리 제한

버전 8.3에서 변경되었습니다.

MongoDB 8.3부터 쿼리 엔진 TextOr 단계 메모리 사용량을 100 메가바이트로 제한합니다. TextOr 단계는 텍스트 점수 메타데이터 읽는 $text 쿼리를 처리합니다. 예시 를 들어 TextOr 는 텍스트 점수를 기준으로 결과를 정렬하는 쿼리를 처리합니다. TextOr 단계가 이 제한을 초과하는 경우:

allowDiskUse 가 true인 경우 단계에서 중간 결과를 디스크로 유출합니다.
allowDiskUse 가 false인 경우 메모리 제한 초과 오류와 함께 쿼리 실패합니다.

이전 버전에서는 TextOr 단계에 메모리 제한이 없었고 제한 없이 RAM 사용하여 메모리 부족(OOM) 오류가 발생할 위험이 있었습니다.

예시

이 페이지의 예시에서는 sample_mflix 샘플 데이터 세트의 데이터를 사용합니다. 이 데이터 세트를 자체 관리형 MongoDB 배포서버에 로드하는 방법에 대한 자세한 내용은 샘플 데이터 세트 로드를 참조하세요. 샘플 데이터베이스를 수정한 경우 이 페이지의 예시를 실행 하려면 데이터베이스를 제거하고 다시 만들어야 할 수 있습니다.

이 예제에서는 버전 3 텍스트 인덱스가 title 및 fullplot 필드에 있다고 가정합니다.

db.movies.createIndex( { title: "text", fullplot: "text" } )

단일 단어 검색

이 예시 $search 문자열에 baseball 를 지정합니다. 쿼리 인덱싱된 title 또는 fullplot 필드에 baseball 의 어간 버전이 포함된 문서를 반환합니다.

db.movies.find(
   { $text: { $search: "baseball" }, runtime: { $gt: 1000 } },
   { _id: 0, title: 1, year: 1, runtime: 1 }
)

[ { title: 'Baseball', year: 1994, runtime: 1140 } ]

모든 검색어 일치

공백으로 구분된 $search 문자열은 각 텀 에 대해 논리적 OR 를 수행합니다. MongoDB 텀이 포함된 문서를 반환합니다.

이 예시 공백으로 구분된 두 개의 텀을 지정합니다. 쿼리 인덱싱된 title 또는 fullplot 필드에 baseball 또는 colorado 의 어간 버전이 포함된 문서를 반환합니다.

db.movies.find(
   { $text: { $search: "baseball colorado" },
     runtime: { $gt: 1000 } },
   { _id: 0, title: 1, year: 1, runtime: 1, fullplot: 1 }
)

[
  {
    runtime: 1140,
    title: 'Baseball',
    fullplot: 'Ken Burns relates the history of baseball in a fashion similar to that of his Civil War mini series. Old-time photos and illustrations depict the games early years, while newsreels and video clips highlight more recent developments. Players and participants speak in their own words, and sports writers and broadcasters offer commentary on the sport and events they witnessed.',
    year: 1994
  },
  {
    runtime: 1256,
    title: 'Centennial',
    fullplot: 'This is the story of the evolution of the town Centennial, Colorado. It follows the paths of dozens of people who come to the area for many reasons: money, freedom, or crime. It also shows the bigoted treatment of the Native Indians by the advancing US colonists. It is topped off with a murder mystery that takes 100 years to solve.',
    year: 1978
  }
]

정확한 문자열 검색

여러 단어로 구성된 정확한 문자열과 일치하도록 따옴표를 이스케이프 처리합니다.

이 예시 정확한 구문 ken burns와 일치합니다.

db.movies.find(
   { $text: { $search: "\"ken burns\"" },
     runtime: { $gt: 1000 } },
   { _id: 0, title: 1, year: 1, runtime: 1, fullplot: 1 }
)

[
  {
    runtime: 1140,
    title: 'Baseball',
    fullplot: 'Ken Burns relates the history of baseball in a fashion similar to that of his Civil War mini series. Old-time photos and illustrations depict the games early years, while newsreels and video clips highlight more recent developments. Players and participants speak in their own words, and sports writers and broadcasters offer commentary on the sport and events they witnessed.',
    year: 1994
  }
]

이 예시 두 개의 정확한 문자열에 대해 논리적 OR을 수행합니다.

db.movies.find(
   { $text: { $search: "\'ken burns\' \'centennial\'" },
     runtime: { $gt: 1000 } },
   { _id: 0, title: 1, year: 1, runtime: 1, fullplot: 1 }
)

[
  {
    runtime: 1140,
    title: 'Baseball',
    fullplot: 'Ken Burns relates the history of baseball in a fashion similar to that of his Civil War mini series. Old-time photos and illustrations depict the games early years, while newsreels and video clips highlight more recent developments. Players and participants speak in their own words, and sports writers and broadcasters offer commentary on the sport and events they witnessed.',
    year: 1994
  },
  {
    runtime: 1256,
    title: 'Centennial',
    fullplot: 'This is the story of the evolution of the town Centennial, Colorado. It follows the paths of dozens of people who come to the area for many reasons: money, freedom, or crime. It also shows the bigoted treatment of the Native Indians by the advancing US colonists. It is topped off with a murder mystery that takes 100 years to solve.',
    year: 1978
  }
]

용어가 포함된 문서 제외

해당 텀 포함된 문서를 제외하려면 텀 앞에 - 을 붙입니다.

이 예시 baseball 또는 colorado 를 포함하지만 sport (어간 버전)은 포함하지 않는 문서와 일치합니다.

db.movies.find(
   { $text: { $search: "baseball colorado -sport" },
     runtime: { $gt: 1000 } },
   { _id: 0, title: 1, year: 1, runtime: 1 }
)

[ { title: 'Centennial', year: 1978, runtime: 1256 } ]

db.articles.insertMany( [
   { _id: 1, subject: "coffee", author: "xyz", views: 50 },
   { _id: 2, subject: "Coffee Shopping", author: "efg", views: 5 },
   { _id: 3, subject: "Baking a cake", author: "abc", views: 90  },
   { _id: 4, subject: "baking", author: "xyz", views: 100 },
   { _id: 5, subject: "Café Con Leche", author: "abc", views: 200 },
   { _id: 6, subject: "Сырники", author: "jkl", views: 80 },
   { _id: 7, subject: "coffee and cream", author: "efg", views: 10 },
   { _id: 8, subject: "Cafe con Leche", author: "xyz", views: 10 }
] )

$language 를 사용하여 $search string에 대한 중지 단어, 형태소 분석기 및 토크나이저 규칙을 결정하는 언어 지정합니다.

default_language 값을 none으로 지정하면 텍스트 인덱스는 중단어(stop word)를 포함하여 필드에 있는 각 단어를 구문 분석하고 접미사 어간(stemming)은 무시합니다.

이 예시 es (스페인어)를 언어 로 지정합니다.

db.articles.find(
   { $text: { $search: "leche", $language: "es" } }
)

[
  { _id: 5, subject: 'Café Con Leche', author: 'abc', views: 200 },
  { _id: 8, subject: 'Cafe con Leche', author: 'xyz', views: 10 }
]

spanish와 같이 이름으로 언어를 지정할 수도 있습니다. 지원되는 언어는 자체 관리형 배포서버의 $text 쿼리 언어 를 참조하세요.

대소문자 및 발음 구별 기호 무시

$text 기본값은 텍스트 인덱스 의 대소문자와 분음 부호를 구분하지 않습니다. 버전 3 텍스트 인덱스는 분음 부호가 있는 라틴 문자 및 키릴 문자와 같은 라틴 문자가 아닌 문자에 대해 분음 부호를 구분하지 않고 대소문자를 구분하지 않습니다. 대소문자 구분 없이 인덱스 인덱스 및 발음 구별 부호 무시하기 텍스트를 참조하세요.

이 예시 대소문자 및 분음 부호를 구분하지 않는 쿼리 수행합니다. 쿼리 버전 3 텍스트 인덱스를 사용하여 검색 의 어간 버전이 포함된 문서를 일치시킵니다.

db.articles.find( { $text: { $search: "сы́рники CAFÉS" } } )

[
  { _id: 6, subject: 'Сырники', author: 'jkl', views: 80 },
  { _id: 5, subject: 'Café Con Leche', author: 'abc', views: 200 },
  { _id: 8, subject: 'Cafe con Leche', author: 'xyz', views: 10 }
]

이전 텍스트 인덱스 버전은 어떤 문서와도 일치하지 않습니다.

대소문자 구분

$caseSensitive: true로 대소문자 구분을 활성화합니다. 이로 인해 성능이 저하될 수 있습니다.

대소문자 구분 텀 검색

이 예시 Coffee에 대해 대소문자를 구분하는 쿼리 수행합니다.

db.articles.find(
   { $text: { $search: "Coffee", $caseSensitive: true } }
)

[ { _id: 2, subject: 'Coffee Shopping', author: 'efg', views: 5 } ]

대소문자 구분 정확한 문자열 검색

이 예시 정확한 여러 단어로 구성된 string에 대해 대소문자를 구분하는 쿼리 수행합니다.

db.articles.find( {
   $text: { $search: "\"Café Con Leche\"", $caseSensitive: true }
} )

[ { _id: 5, subject: 'Café Con Leche', author: 'abc', views: 200 } ]

대소문자 구분 부정 텀 검색

부정 텀(텀 - 접두사)에는 사용 사례 수 있습니다.

이 예시 Coffee 는 포함하지만 shop 은 포함하지 않는 문서(어간 버전)에 대해 대소문자를 구분하는 쿼리 수행합니다.

db.articles.find(
   { $text: { $search: "Coffee -shop", $caseSensitive: true } }
)

[ { _id: 2, subject: 'Coffee Shopping', author: 'efg', views: 5 } ]

발음 구별 기호 인식

$diacriticSensitive: true을 사용하여 버전 3 텍스트 인덱스에서 발음 부호 구분을 활성화합니다. 이로 인해 성능이 저하될 수 있습니다.

분음 부호 구분 텀 검색

이 예시 CAFÉ (어간 버전)에 대해 발음 부호 구분 쿼리 수행합니다.

db.articles.find(
   { $text: { $search: "CAFÉ", $diacriticSensitive: true } }
)

[ { _id: 5, subject: 'Café Con Leche', author: 'abc', views: 200 } ]

분음 부호 구분 부정 텀 검색

부정 텀(텀에 - 접두사가 붙음)에는 분음 부호 구분을 사용할 수 있습니다.

이 예시 leches 는 포함하지만 cafés 는 포함하지 않는 문서(어간 버전)에 대해 발음 부호 구분 쿼리 수행합니다.

db.articles.find(
   { $text: { $search: "leches -cafés", $diacriticSensitive: true } }
)

[ { _id: 8, subject: 'Cafe con Leche', author: 'xyz', views: 10 } ]

팁

자체 관리형 배포의 텍스트 인덱스
어간 단어
정확한 문자열
부정
대소문자 구분 안 함
대소문자 구분 및 어간 추출
발음 구별 기호 무시
발음 구별 기호 인식 및 어간 단어
$meta
집계 파이프라인의 $text

돌아가기

$text 쿼리 연산자

집계 파이프라인의 $text 쿼리

참고

정의

호환성

구문

행동

제한 사항

$search 필드

참고

정확한 문자열

부정

매치 작업

중지 단어

어간 단어

대소문자 구분 및 어간 추출

발음 구별 기호 인식 및 어간 단어

대소문자 구분 안 함

대소문자 구분 활성화

대소문자 구분 프로세스

발음 구별 기호 무시

분음 부호 민감도 활성화

발음 구별 기호 인식 과정

팁

텍스트 점수

메모리 제한

예시

단일 단어 검색

모든 검색어 일치

정확한 문자열 검색

용어가 포함된 문서 제외

관련성 점수 예시

관련성 점수 반환

일치하는 문서 상위 2개 반환

$text를 다른 쿼리 및 정렬 작업과 결합하기

다른 언어 쿼리

관련성 점수 기준으로 정렬

대소문자 및 발음 구별 기호 무시

대소문자 구분

대소문자 구분 텀 검색

대소문자 구분 정확한 문자열 검색

대소문자 구분 부정 텀 검색

발음 구별 기호 인식

분음 부호 구분 텀 검색

분음 부호 구분 부정 텀 검색

팁

`$search` 필드