Docs Menu
Docs Home
/
데이터베이스 매뉴얼
/ / /

자체 관리형 배포서버의 텍스트 인덱스 속성

이 페이지에서는 버전 3 텍스트 인덱스의 동작에 대해 설명합니다.

텍스트 인덱스는 대소문자를 구분하지 않습니다. 텍스트 인덱스는 eE 와 같이 대문자와 소문자를 구분하지 않습니다.

텍스트 인덱스는 유니코드 문자 데이터베이스 8.0 대소문자 접기 에 지정된 대로 대소문자 접기를 지원합니다. :

  • Common C

  • Simple S

  • 터키어용 특수 T

  • 발음 부호가 있는 문자(예: éÉ

  • 키릴 문자의 Ии 와 같이 라틴 알파벳이 아닌 문자의 문자입니다.

이전 텍스트 인덱스 버전 은 발음 구별 부호가 아닌 라틴 문자 [A-z] 에 대해서만 대소문자를 구분하지 않습니다. 이전 텍스트 인덱스 버전에서는 다른 모든 문자를 고유한 문자로 취급합니다.

텍스트 인덱스는 분음 부호를 구분하지 않습니다. 텍스트 인덱스는 분음 부호가 포함된 문자와 표시되지 않은 문자(예: é, êe)를 구분하지 않습니다. 보다 구체적으로 설명하면, 텍스트 인덱스는 유니코드 문자 8.0 데이터베이스 속성 목록 에서 발음 부호로 분류된 표시를 제거합니다. .

이전 버전 의 텍스트 인덱스에서는 분음 부호가 있는 문자를 고유한 문자로 취급합니다.

토큰화를 위해 텍스트 인덱스는 유니코드 Dash 에서Hyphen, , Pattern_Syntax, Quotation_Mark, Terminal_Punctuation 및 로 분류된 구분자를 White_Space 8사용합니다.0 캐릭터 데이터베이스 프롭 목록.

예시 를 들어 Il a dit qu'il «était le meilleur joueur du monde» 문자열에서 따옴표(«, »)와 공백은 구분 기호입니다.

이전 버전 의 인덱스는 ««était 텀의 일부로, »monde» 텀의 일부로 취급합니다.

텍스트 인덱스는 인덱스 항목의 인덱스 필드에 있는 용어를 토큰화하여 어근 형태로 줄입니다. 인덱스는 간단한 언어별 접미사 어간 처리를 사용합니다. 컬렉션의 각 문서에서 텍스트 인덱스는 인덱스 필드에 고유하게 어간 처리된 용어마다 인덱스 항목 한 개를 저장합니다.

MongoDB 는 다양한 언어에 대한 텍스트 검색 을 지원합니다. 텍스트 인덱스는 간단한 언어별 접미사 형태소 분석을 사용합니다. 텍스트 인덱스는 또한 영어에서 the, an, aand 과 같은 언어별 불용어를 삭제합니다. 지원되는 언어 목록은 자체 관리 배포서버의 텍스트 검색 언어를 참조하세요.

텍스트 인덱스의 언어 를 지정하려면 자체 관리 배포서버에서 텍스트 인덱스의 기본 언어 지정인덱스 참조하세요.

텍스트 인덱스는 항상 희박합니다. 텍스트 인덱스를 만들 때 MongoDB는 sparse 옵션을 무시합니다.

기존 또는 새로 삽입된 문서에 텍스트 인덱스 필드가 없거나 null 또는 빈 배열인 경우 MongoDB는 문서에 대한 텍스트 인덱스 항목을 추가하지 않습니다.

텍스트 인덱스 제한에 학습 보려면 자체 관리 배포서버의 텍스트 인덱스 버전을 참조하세요.

돌아가기

항목 제한

이 페이지의 내용