La intercalación permite a los usuarios especificar reglas específicas de un lenguaje para la comparación de strings, como reglas para mayúsculas y acentos.
Puede especificar la intercalación para una colección o una vista, un índice u operaciones específicas que soportan la intercalación.
Para especificar la intercalación al realizar un query de documentos en la Interfaz de usuario de MongoDB Atlas, consulta Especificar la intercalación.
Documento de intercalación
Un documento de intercalación tiene los siguientes campos:
{ locale: <string>, caseLevel: <boolean>, caseFirst: <string>, strength: <int>, numericOrdering: <boolean>, alternate: <string>, maxVariable: <string>, backwards: <boolean> }
Al especificar la intercalación, el locale Este campo es obligatorio; todos los demás campos de intercalación son opcionales. Para obtener descripciones de los campos, consulte el documento de intercalación.
Los valores predeterminados de los parámetros de intercalación varían según la configuración regional que especifique. Para obtener una lista completa de los parámetros de intercalación predeterminados y las configuraciones regionales a las que están asociados, consulte Parámetros predeterminados de intercalación.
Campo | Tipo | Descripción | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| string | La localización de ICU. Consulte Idiomas y localizaciones compatibles para obtener una lista de las localizaciones admitidas. Para especificar una comparación binaria simple, especifique el valor | ||||||||||||
| entero | Opcional. El nivel de comparación a realizar. Corresponde a los niveles de comparación de la UCI.Los valores posibles son:
Consulte Intercalación de ICU: Niveles de comparación para obtener más detalles. | ||||||||||||
| booleano | Opcional. Indicador que determina si se debe incluir la comparación de mayúsculas y minúsculas en el nivel Si
Si Para obtener más información, consulte Intercalación de ICU: Nivel de diferencias entre mayúsculas y minúsculas. | ||||||||||||
| string | Opcional. Un campo que determina el orden de clasificación de las diferencias de mayúsculas y minúsculas durante las comparaciones de nivel terciario. Los valores posibles son:
| ||||||||||||
| booleano | Opcional. Indicador que determina si se deben comparar las strings numéricas como números o como strings. Si Si El valor por defecto es | ||||||||||||
| string | Opcional. Campo que determina si la intercalación debe considerar los espacios en blanco y la puntuación como caracteres base a los efectos de la comparación. Los valores posibles son:
Consulte Intercalación de ICU: Niveles de comparación para obtener más información. El valor por defecto es | ||||||||||||
| string | Opcional. Campo que determina hasta qué caracteres se consideran ignorables cuando Los valores posibles son:
| ||||||||||||
| booleano | Opcional. Indicador que determina si las strings con diacríticos se ordenan desde el final de la string, como en algunos ordenamientos de diccionarios franceses. Si Si El valor por defecto es | ||||||||||||
| booleano | Opcional. Indicador que determina si se debe verificar si el texto requiere normalización y realizar la normalización. En general, la mayoría del texto no requiere este procesamiento de normalización. Si Si El valor por defecto es Consulte https://unicode-org.github.io/icu/userguide/collation/concepts.html#normalization para obtener más detalles. |
Operaciones que admiten intercalación
Puede especificar la intercalación para las siguientes operaciones:
Nota
No puedes especificar varias intercalaciones para una operación. Por ejemplo, no puedes especificar diferentes intercalaciones por campo, o si realizas una búsqueda con un ordenamiento, no puedes usar una intercalación para la búsqueda y otra para el ordenamiento.
Comandos | mongosh Métodos |
|---|---|
| |
Operaciones individuales de actualización, reemplazo y borrado en |
| [1] | (1, 2) Algunos tipos de índices no admiten la intercalación. Consulte Intercalación y tipos de índices no compatibles para obtener más detalles. |
Comportamiento
Variantes locales
Algunas localizaciones de intercalación tienen variantes que usan reglas específicas del lenguaje. Para especificar una variante de localización, utilice la siguiente sintaxis:
{ "locale" : "<locale code>@collation=<variant>" }
Por ejemplo, para utilizar la variante unihan de la intercalación china:
{ "locale" : "zh@collation=unihan" }
Para obtener una lista completa de todas las localizaciones de intercalación y sus variantes, consulte Localizaciones de intercalación.
Intercalación y vistas
Puede especificar una intercalación por defecto para una vista en el momento que la crea. Si no se especifica ninguna intercalación, la intercalación por defecto de la vista es el intercalador de comparación binaria "simple". Es decir, la vista no hereda la intercalación por defecto de la colección.
Las comparaciones de string en la vista utilizan la intercalación por defecto de la vista. Una operación que intente cambiar o sobrescribir la intercalación por defecto de una vista fallará con un error.
Si crea una vista a partir de otra vista, no puede especificar una intercalación que difiera de la intercalación de la vista de origen.
Si realiza una agregación que implique varias vistas, como con
$lookupo$graphLookup, las vistas deben tener la misma intercalación.
Uso de la intercalación y del índice
Para utilizar un índice para las comparaciones de cadenas, una operación también debe especificar la misma intercalación. Es decir, un índice con una intercalación no puede soportar una operación que realice comparaciones de strings en los campos indexados si la operación especifica una intercalación diferente.
Advertencia
Debido a que los índices configurados con intercalación utilizan claves de intercalación ICU para lograr el orden de clasificación, las claves de índice que consideran la intercalación pueden ser más grandes que las claves de índice para los índices sin intercalación.
Una colección restaurants tiene los siguientes documentos:
db.restaurants.insertMany( [ { _id: 1, category: "café", status: "Open" }, { _id: 2, category: "cafe", status: "open" }, { _id: 3, category: "cafE", status: "open" } ] )
La colección restaurants tiene un índice en un campo de string category con la intercalación de la localización "fr".
db.restaurants.createIndex( { category: 1 }, { collation: { locale: "fr" } } )
La siguiente query, que especifica la misma intercalación que el índice, puede utilizar el índice:
db.restaurants.find( { category: "cafe" } ).collation( { locale: "fr" } )
Sin embargo, la siguiente operación de query, que por defecto utiliza el intercalador binario "simple", no puede usarse el índice:
db.restaurants.find( { category: "cafe" } )
Para un índice compuesto donde las claves prefijo del índice no son cadenas, arreglos ni documentos incrustados, una operación que especifique una intercalación diferente puede seguir utilizando el índice para soportar comparaciones en las claves prefijo del índice.
Por ejemplo, la colección restaurants tiene un índice compuesto en los campos numéricos score y price y el campo de string category; el índice se crea con la localización de intercalación "fr" para comparaciones de strings:
db.restaurants.createIndex( { score: 1, price: 1, category: 1 }, { collation: { locale: "fr" } } )
Las siguientes operaciones, que utilizan la intercalación binaria "simple" para las comparaciones de strings, pueden usar el índice:
db.restaurants.find( { score: 5 } ).sort( { price: 1 } ) db.restaurants.find( { score: 5, price: { $gt: Decimal128( "10" ) } } ).sort( { price: 1 } )
La siguiente operación, que utiliza la intercalación binaria "simple" para las comparaciones de string en el campo category indexado, puede usar el índice para cumplir solo con la parte score: 5 de la query:
db.restaurants.find( { score: 5, category: "cafe" } )
Para confirmar si una consulta ha utilizado un índice, ejecuta la consulta con la opción explain().
Importante
Las coincidencias con claves de documentos, incluidas las claves de documentos incrustadas, utilizan una comparación binaria simple. Esto significa que un query para una clave como "type.café" no coincidirá con la clave "type.cafe", independientemente del valor que establezcas para el parámetro strength.
Intercalación y tipos de índices no compatibles
Los siguientes índices solo admiten la comparación binaria simple y no admiten la intercalación:
text indexes,
2d índices, y
geoHaystack indexes.
Tip
Para crear un índice text, 2d o geoHaystack en una colección que tiene una intercalación no simple, debe especificar explícitamente {collation: {locale: "simple"} } al crear el índice.
Restricciones
Ordenación numérica
Al especificar el numericOrdering como true, se aplican las siguientes restricciones:
Solo se consideran en las comparaciones las substrings de enteros no negativos contiguos de dígitos.
numericOrderingno soporta:+-separadores decimales, como puntos y comas decimales
exponentes
Solo los puntos de código Unicode en la categoría de Número o dígito decimal (Nd) se consideran dígitos.
Si la longitud de un número supera los 254 caracteres, los caracteres excedentes se tratan como un número independiente.
Considere una colección con los siguientes valores de strings numéricas y decimales:
db.c.insertMany( [ { "n" : "1" }, { "n" : "2" }, { "n" : "2.1" }, { "n" : "-2.1" }, { "n" : "2.2" }, { "n" : "2.10" }, { "n" : "2.20" }, { "n" : "-10" }, { "n" : "10" }, { "n" : "20" }, { "n" : "20.1" } ] )
El siguiente query find utiliza un documento de intercalación que contiene el parámetro numericOrdering:
db.c.find( { }, { _id: 0 } ).sort( { n: 1 } ).collation( { locale: 'en_US', numericOrdering: true } )
La operación devuelve los siguientes resultados:
[ { n: '-2.1' }, { n: '-10' }, { n: '1' }, { n: '2' }, { n: '2.1' }, { n: '2.2' }, { n: '2.10' }, { n: '2.20' }, { n: '10' }, { n: '20' }, { n: '20.1' } ]
numericOrdering: trueordena los valores de strings en orden ascendente como si fueran valores numéricos.Los dos valores negativos
-2.1y-10no están ordenados en el orden de clasificación esperado porque tienen caracteres-no admitidos.El valor
2.2se ordena antes que el valor2.10, debido a que el parámetronumericOrderingno admite valores decimales.Como resultado,
2.2y2.10se ordenan en orden lexicográfico.
Ejemplo
Una colección restaurants tiene los siguientes documentos:
db.restaurants.insertMany( [ { _id: 1, category: "café", status: "Open" }, { _id: 2, category: "cafe", status: "open" }, { _id: 3, category: "cafE", status: "open" } ] )
La siguiente operación find() utiliza intercalación:
db.restaurants.find( { category: "cafe", status: "Open" } ).collation( { locale: "fr", strength: 1 } )
[ { _id: 1, category: 'café', status: 'Open' }, { _id: 2, category: 'cafe', status: 'open' }, { _id: 3, category: 'cafE', status: 'open' } ]
El filtro especifica una intercalación con strength: 1, lo que significa que el query ignora las diferencias entre mayúsculas y minúsculas. Como resultado, aunque no exista un documento que coincida exactamente con las variantes de mayúsculas y minúsculas especificadas en el filtro, la operación devuelve todos los documentos de la colección.