Docs Menu
Docs Home
/
MongoDBマニュアル
/ / /

自己管理型配置のテキストインデックスのプロパティ

項目一覧

  • 大文字と小文字の区別なし
  • 発音区別符号の区別なし
  • トークン化区切り文字
  • インデックス エントリ
  • サポートされている言語とストップワード
  • スパース プロパティ
  • 詳細

このページでは、 バージョン3テキスト インデックスの動作について説明します。

テキストインデックスは大文字と小文字を区別しません。 テキスト インデックスでは、 eEなど、大文字と小文字を区別しません。

テキスト インデックスは、 Unicode8.0 文字データベースの大文字と小文字のフォールディング で指定されている大文字と小文字のフォールディングをサポートしています :

  • Common C

  • 単純 S

  • トルコ語の特殊 T

  • 発音区別符号付き文字( éÉなど)

  • 非ラテン文字(キリル文字のИиなど)

以前のテキスト インデックス バージョンでは、発音区別符号以外のラテン文字[A-z]のみが大文字と小文字を区別しません。 以前のテキスト インデックス バージョンでは、他のすべての文字は別の文字として扱われます。

テキストインデックスは、発音区別符号を区別しません。 テキスト インデックスでは、 éêeなど、発音区別符号を含む文字と含まない文字を区別しません。 具体的には、テキストインデックスは、 Unicode8.0 文字データベースプロンプトリスト で発音区別符号として分類されたマークを削除します。 。

以前のバージョンのテキスト インデックスでは、発音区別符号付きの文字は別個の文字として扱われていました。

トークン化には、テキスト インデックスは UnicodeDash の 、HyphenPattern_SyntaxQuotation_MarkTerminal_PunctuationWhite_Space 8に分類される区切り文字を使用します。0 文字データベースのプロンプト リスト

例、string Il a dit qu'il «était le meilleur joueur du monde» では、引用符(«»)とスペースは区切り文字です。

インデックスの以前のバージョンでは、 «は用語«étaitの一部として、 »は用語monde»の一部として扱われます。

テキストインデックスは、インデックスエントリのインデックス付きフィールドのタームをトークン化してステミングします。 インデックスは言語固有の単純な接尾辞ステミングを使用します。 コレクション内の各ドキュメントについて、テキスト インデックスでは、インデックス フィールドごとに一意の語幹付きタームごとに 1 つのインデックスエントリが保存されます。

MongoDB はさまざまな言語のテキスト検索をサポートしています。 テキストインデックスは言語固有の単純な接尾辞ステミングを使用します。 テキスト インデックスでは、 theanaandなどの言語固有のストップワードも削除されます。 サポートされている言語のリストについては、「自己管理型配置のテキスト検索言語 」を参照してください。

テキストインデックスの言語を指定するには、「自己管理型配置のテキストインデックスのデフォルト言語の指定 」を参照してください。

テキストインデックスは常にスパースです。テキストインデックスを作成すると、MongoDB は sparse オプションを無視します。

既存または新しく挿入されたドキュメントにテキストインデックスのフィールドがない場合(またはフィールドが NULL または空の配列)、MongoDB はドキュメントにテキストインデックスエントリを追加しません。

テキストインデックスの制限の詳細については、「自己管理型配置のテキストインデックスのバージョン 」を参照してください。

戻る

エントリの制限