자체 관리형 배포서버의 텍스트 인덱스 속성
이 페이지에서는 버전 3 텍스트 인덱스의 동작에 대해 설명합니다.
대소문자 구분 안 함
텍스트 인덱스는 대소문자를 구분하지 않습니다. 텍스트 인덱스는 e
및 E
와 같이 대문자와 소문자를 구분하지 않습니다.
텍스트 인덱스는 유니코드 문자 데이터베이스 8.0 대소문자 접기 에 지정된 대로 대소문자 접기를 지원합니다. :
Common C
Simple S
터키어용 특수 T
발음 부호가 있는 문자(예:
é
및É
키릴 문자의
И
및и
와 같이 라틴 알파벳이 아닌 문자의 문자입니다.
이전 텍스트 인덱스 버전 은 발음 구별 부호가 아닌 라틴 문자 [A-z]
에 대해서만 대소문자를 구분하지 않습니다. 이전 텍스트 인덱스 버전에서는 다른 모든 문자를 고유한 문자로 취급합니다.
발음 구별 기호 무시
텍스트 인덱스는 분음 부호를 구분하지 않습니다. 텍스트 인덱스는 분음 부호가 포함된 문자와 표시되지 않은 문자(예: é
, ê
및 e
)를 구분하지 않습니다. 보다 구체적으로 설명하면, 텍스트 인덱스는 유니코드 문자 8.0 데이터베이스 속성 목록 에서 발음 부호로 분류된 표시를 제거합니다. .
이전 버전 의 텍스트 인덱스에서는 분음 부호가 있는 문자를 고유한 문자로 취급합니다.
토큰화 구분자
토큰화를 위해 텍스트 인덱스는 유니코드 Dash
에서Hyphen
, , Pattern_Syntax
, Quotation_Mark
, Terminal_Punctuation
및 로 분류된 구분자를 White_Space
8사용합니다.0 캐릭터 데이터베이스 프롭 목록.
예시 를 들어 Il a dit qu'il «était le meilleur joueur du
monde»
문자열에서 따옴표(«
, »
)와 공백은 구분 기호입니다.
이전 버전 의 인덱스는 «
를 «était
텀의 일부로, »
를 monde»
텀의 일부로 취급합니다.
인덱스 항목
텍스트 인덱스는 인덱스 항목의 인덱스 필드에 있는 용어를 토큰화하여 어근 형태로 줄입니다. 인덱스는 간단한 언어별 접미사 어간 처리를 사용합니다. 컬렉션의 각 문서에서 텍스트 인덱스는 인덱스 필드에 고유하게 어간 처리된 용어마다 인덱스 항목 한 개를 저장합니다.
지원되는 언어 및 중지 단어
MongoDB 는 다양한 언어에 대한 텍스트 검색 을 지원합니다. 텍스트 인덱스는 간단한 언어별 접미사 형태소 분석을 사용합니다. 텍스트 인덱스는 또한 영어에서 the
, an
, a
및 and
과 같은 언어별 불용어를 삭제합니다. 지원되는 언어 목록은 자체 관리 배포서버의 텍스트 검색 언어를 참조하세요.
텍스트 인덱스의 언어 를 지정하려면 자체 관리 배포서버에서 텍스트 인덱스의 기본 언어 지정인덱스 참조하세요.
Sparse 속성
텍스트 인덱스는 항상 희박합니다. 텍스트 인덱스를 만들 때 MongoDB는 sparse
옵션을 무시합니다.
기존 또는 새로 삽입된 문서에 텍스트 인덱스 필드가 없거나 null 또는 빈 배열인 경우 MongoDB는 문서에 대한 텍스트 인덱스 항목을 추가하지 않습니다.
자세히 알아보기
텍스트 인덱스 제한에 학습 보려면 자체 관리 배포서버의 텍스트 인덱스 버전을 참조하세요.