Docs Menu
Docs Home
/ /

자체 관리형 배포서버의 텍스트 인덱스 속성

이 페이지에서는 버전 3 텍스트 인덱스의 동작에 대해 설명합니다.

텍스트 인덱스는 대소문자를 구분하지 않습니다. 텍스트 인덱스는 eE 와 같이 대문자와 소문자를 구분하지 않습니다.

텍스트 인덱스는 유니코드 문자 데이터베이스 대소문자 접기 에 지정된 대로 대소문자 접기를 지원 8.0 .

  • Common C

  • Simple S

  • 터키어용 특수 T

  • 발음 부호가 있는 문자(예: éÉ

  • 키릴 문자의 Ии 와 같이 라틴 알파벳이 아닌 문자의 문자입니다.

이전 텍스트 인덱스 버전 은 발음 구별 부호가 아닌 라틴 문자 [A-z] 에 대해서만 대소문자를 구분하지 않습니다. 이전 텍스트 인덱스 버전에서는 다른 모든 문자를 고유한 문자로 취급합니다.

텍스트 인덱스는 분음 부호를 구분하지 않습니다. 텍스트 인덱스 분음 부호가 포함된 문자와 표시되지 않은 문자(예: é, ê, e)를 구분하지 않습니다. 보다 구체적으로 설명하면, 텍스트 인덱스 유니코드 8.0 문자 데이터베이스 속성 목록에서 발음 부호로 분류된 표시를 제거합니다.

이전 버전 의 텍스트 인덱스에서는 분음 부호가 있는 문자를 고유한 문자로 취급합니다.

토큰화의 경우 텍스트 인덱스는 유니코드 Dash HyphenPattern_SyntaxQuotation_Mark에서,,,,, Terminal_Punctuation 로 분류된 구분자를 White_Space 8사용합니다.0 문자 데이터베이스 소품 목록.

예시 를 들어 Il a dit qu'il «était le meilleur joueur du monde» 문자열에서 따옴표(«, »)와 공백은 구분 기호입니다.

이전 버전 의 인덱스는 ««était 텀의 일부로, »monde» 텀의 일부로 취급합니다.

텍스트 인덱스는 인덱스 항목의 인덱스 필드에 있는 용어를 토큰화하여 어근 형태로 줄입니다. 인덱스는 간단한 언어별 접미사 어간 처리를 사용합니다. 컬렉션의 각 문서에서 텍스트 인덱스는 인덱스 필드에 고유하게 어간 처리된 용어마다 인덱스 항목 한 개를 저장합니다.

MongoDB 는 다양한 언어에 대한 텍스트 검색 을 지원합니다. 텍스트 인덱스는 간단한 언어별 접미사 형태소 분석을 사용합니다. 텍스트 인덱스는 또한 영어에서 the, an, aand 과 같은 언어별 불용어를 삭제합니다. 지원되는 언어 목록은 자체 관리 배포서버의 텍스트 검색 언어를 참조하세요.

텍스트 인덱스의 언어를 지정하려면 자체 관리형 MongoDB의 텍스트 인덱스 언어 지정을 참조하세요.

텍스트 인덱스는 항상 희박합니다. 텍스트 인덱스를 만들 때 MongoDB는 sparse 옵션을 무시합니다.

기존 또는 새로 삽입된 문서에 텍스트 인덱스 필드가 없거나 null 또는 빈 배열인 경우 MongoDB는 문서에 대한 텍스트 인덱스 항목을 추가하지 않습니다.

텍스트 인덱스 제한에 학습 보려면 자체 관리 배포서버의 텍스트 인덱스 버전을 참조하세요.

돌아가기

스캔하는 텍스트 인덱스 항목 수 제한

이 페이지의 내용