Make the MongoDB docs better! We value your opinion. Share your feedback for a chance to win $100.
MongoDB Branding Shape
Click here >
Docs Menu

Configurar el archivo en línea para colecciones de series temporales

Importante

Característica no disponible en los clústeres Flex

Los clústeres Flex no admiten esta característica en este momento. Para obtener más información, se debe consultar Limitaciones de Atlas Flex.

Puede configurar el archivado de datos en una colección de series temporales especificando una regla de archivado. Esta regla combina un campo de tiempo y un valor numérico que representa la cantidad de días que el clúster de Atlas almacena los datos antes de archivarlos.

MongoDB almacena datos de series temporales en documentos de tipo bucket. El archivo en línea opera únicamente con documentos de tipo bucket completos, lo que preserva la eficiencia de la compresión de columnas.

Para configurar el clúster de Atlas para el archivo en linea:

  1. Cree una regla de archivado proporcionando el espacio de nombres de la colección, el timeField y el número de días que se conservarán los datos en el clúster.

  2. (Opcional) Especificar los campos que se query con frecuencia para particionar los datos archivados.

Cuando configura un archivo en línea en el clúster, Atlas crea 2 instancias federadas de base de datos en el clúster: una solo para el archivo y otra para el clúster y archivo.

Para conocer las limitaciones que se aplican a todos los archivos en línea, consulte la sección Limitaciones.

Antes de configurar un archivo en línea, asegúrese de que su clúster de Atlas funcione correctamente. Si un nodo falla, el archivo permanecerá en estado PENDING hasta que el clúster esté completamente operativo.

Para crear un archivo en línea, debes tener acceso Project Data Access Admin o superior al Proyecto.

Para supervisar la disponibilidad de un archivo, se debe tener acceso Project Read Only o superior al proyecto.

Para crear un archivo en línea para un clúster usando el Atlas CLI, ejecuta el siguiente comando:

atlas clusters onlineArchives create [options]

Para vigilar que un archivo En linea específico esté disponible usando Atlas CLI, ejecuta el siguiente comando:

atlas clusters onlineArchives watch <archiveId> [options]

Para obtener más información sobre la sintaxis y los parámetros de los comandos anteriores, consulta la documentación de Atlas CLI para atlas clusters onlineArchives create y atlas clusters onlineArchives watch.

Tip

Consulte: Enlaces relacionados

Para configurar un archivo en linea desde la API, enviar una solicitud POST al endpoint onlineArchives.

Si el clúster ya tiene un Active archivo en línea con la misma regla de archivado para la misma base de datos y colección, la operación falla. Sin embargo, si el archivo en línea existente está Paused en Deleted estado o, se crea un nuevo archivo en línea y su estado se establece Active en. Para obtener más información sobre la sintaxis y las opciones, consulte la API.

Para configurar un archivo en línea para una colección de series temporales, en la interfaz de usuario de Atlas:

1
  1. Si aún no se muestra, seleccione la organización que contiene su proyecto deseado en el menú Organizations de la barra de navegación.

  2. Si aún no aparece, selecciona el proyecto deseado en el menú Projects de la barra de navegación.

  3. En la barra lateral, haz clic en Clusters en la sección Database.

La página de clústeres se muestra.

2

En la barra lateral, haga clic en Online Archive.

La página fichero en linea se muestra.

3

Para configurar un archivo en linea para la colección, se debe hacer clic en:

  • Configure Online Archive presiona el botón por primera vez.

  • Add Archive botón posteriormente.

4
5
  1. Especificar el namespace de la colección, que incluye el nombre de la base de datos, el separador de punto (.) y el nombre de la colección (es decir, <database>.<collection>), en el campo Namespace.

    No se puede modificar el namespace una vez que se ha creado el archivo en linea.

  2. Cree un índice compuesto en [control.closed, control.min.<date_field>] para el subyacente system.bucket.<collection> para garantizar un rendimiento óptimo.

  3. Seleccionar la región del proveedor de nube donde se desea almacenar los datos archivados.

    IMPORTANTE: recomendamos que se seleccione la misma región que el clúster si es posible porque podría incurrir en un costo de transferencia de datos más alto si se elige una región diferente.

    Atlas muestra las regiones del proveedor de nube según el proveedor de nube donde se implementa el clúster. Para los clústeres multi-nube, Atlas muestra las regiones del proveedor de nube de mayor prioridad. Atlas muestra un junto a la región que coincide de cerca o exactamente con la región donde se implementa el clúster.

    Para los clústeres de Atlas implementados en AWS, se puede seleccionar una de las siguientes regiones:

    Región de Data Federation
    Región AWS
    Región de Atlas

    Norte de Virginia, EE. UU.

    us-east-1

    US_EAST_1

    Oregón, EE. UU.

    us-west-2

    US_WEST_2

    Sao Paulo, Brasil

    sa-east-1

    SA_EAST_1

    Irlanda

    eu-west-1

    EU_WEST_1

    London, England, UK

    eu-west-2

    EU_WEST_2

    Fráncfort, Alemania

    eu-central-1

    EU_CENTRAL_1

    Tokyo, Japan

    ap-northeast-1

    AP_NORTHEAST_1

    Seúl, Corea del Sur

    ap-northeast-2

    AP_NORTHEAST_2

    Mumbai, India

    ap-south-1

    AP_SOUTH_1

    Singapur

    ap-southeast-1

    AP_SOUTHEAST_1

    Sydney, Australia

    ap-southeast-2

    AP_SOUTHEAST_2

    Montreal, QC, Canadá

    ca-central-1

    CA_CENTRAL_1

    Para los clústeres de Atlas implementados en Azure, puedes seleccionar una Región de Azure solo si no hay otros archivos En linea en el clúster que utilicen un proveedor de nube diferente. Si un Archivo En línea existente en el clúster utiliza AWS o Google Cloud para almacenar datos archivados, solo puedes seleccionar AWS o regiones de Google Cloud para cualquier nuevo Archivo En línea en ese clúster.

    IMPORTANTE: para un clúster implementado en Azure, si tienes ficheros en linea existentes que utilizan AWS o Google Cloud y los borras, debes esperar cinco días antes de poder crear un nuevo Archivo En linea que utilice Azure. Dentro de este periodo de cinco días, cualquier intento de crear un nuevo archivo en línea se establece por defecto en el proveedor de nube que seleccionaste originalmente.

    Para los clústeres de Atlas implementados en Azure, puedes seleccionar una de las siguientes regiones:

    Región de Data Federation
    Azure Región
    Región de Atlas

    Virginia, USA

    eastus2

    US_EAST_2

    Sao Paulo, Brasil

    brazilsouth

    BRAZIL_SOUTH

    Países Bajos

    westeurope

    EUROPE_WEST

    Para los clústeres de Atlas implementados en Google Cloud, puedes seleccionar una región de Google Cloud solo si no hay otros archivos En linea en el clúster que utilicen un proveedor de nube diferente. Si un archivo en línea existente en el clúster utiliza AWS o Azure para almacenar datos archivados, solo puedes seleccionar regiones de AWS o Azure para cualquier nuevo archivo en línea en ese clúster.

    IMPORTANTE: para un clúster implementado en Google Cloud, si tiene archivos En línea que utilizan AWS o Azure y los borra, debes esperar cinco días antes de poder crear un nuevo archivo En línea que utilice Google Cloud. Dentro de este periodo de cinco días, cualquier intento de crear un nuevo archivo en línea se establece por defecto en el proveedor de nube que seleccionaste originalmente.

    Para los clústeres de Atlas implementados en Google Cloud, puedes seleccionar una de las siguientes regiones:

    Región de Data Federation
    Región de Google Cloud
    Región de Atlas

    Iowa, USA

    us-central1

    IOWA_USA

    Bélgica

    europe-west1

    BELGIUM_EU

    IMPORTANTE: una vez que Atlas crea el archivo en línea, no se puede modificar la región de almacenamiento.

  4. Seleccione la casilla de verificación This is a Time Series Collection y especifique lo siguiente:

    • Nombre del campo que contiene la fecha en cada documento de serie de tiempo. Esto debe corresponder al timeField en la colección de series de tiempo. Para especificar un campo anidado, utiliza la notación de puntos. No puedes modificar el campo de tiempo una vez que se haya creado el fichero en línea.

    • Número de días para mantener los datos en el clúster de Atlas.

    • Formato de fecha del campo de fecha especificado. El valor del campo de fecha debe estar en formato ISODate.

    Importante

    Atlas ejecuta una query de suficiencia de índice durante la primera ejecución de archivo para determinar la eficiencia del proceso de archivado. Si el número de documentos escaneados al número de documentos devueltos es 10 o más, el resultado de la query activa un Index Sufficiency Warning. Esta advertencia indica que no se dispone de índices suficientes para un proceso de archivo eficiente. Para los archivos basados en fechas, se debe indexar el campo de fecha. Para los criterios personalizados que utilizan una expresión, Atlas podría primero convertir un valor antes de evaluarlo contra la query.

    La query de suficiencia de índices deja de ejecutarse después de que se detectan índices suficientes. Si se descarta un índice de la colección más tarde y esto ralentiza el proceso de archivado, Atlas no emite un Index Sufficiency Warning.

    Nota

    MongoDB almacena datos de series de tiempo en documentos llamados "bucket". Cada bucket representa muchas mediciones lógicas de tu colección de series de tiempo. MongoDB comprime las columnas de cada compartimiento antes de escribirlo en las páginas de WiredTiger. WiredTiger luego comprime en bloque las páginas para una eficiencia de compresión adicional.

    MongoDB fichero en línea solo opera sobre documentos de cubeta completos, y nunca agrega ni remueve mediciones individuales de cada documento. Esto previene la fragmentación y mantiene la eficiencia de compresión de columnas para cada bucket.

6
  1. (Opcional) Especificar un Data Retention Period.

    Por defecto, Atlas no borra los datos archivados. Sin embargo, si se especifica el Data Retention Period, se puede especificar entre 7 y 9125 días (25 años) para conservar los datos archivados. Atlas borra los datos archivados después del número de días que se especifiquen aquí. Esta regla de expiración de datos entra en vigor 24 horas después de que se establezca el Data Retention Period.

    ADVERTENCIA: una vez que Atlas borra los datos, no se pueden recuperar.

  2. (Opcional) Especificar un Schedule Archiving Window.

    Por defecto, Atlas ejecuta periódicamente una query para archivar datos. Sin embargo, puedes alternar Schedule Archiving Window para establecer explícitamente el cronograma de la ventana de tiempo durante la cual desea que Atlas archive los datos. Puedes especificar lo siguiente:

    • Frecuencia. Se puede elegir ejecutar la tarea todos los días, en un día específico de la semana o en una fecha concreta cada mes. Si se desea programar la tarea de archivado de datos para el día 29, 30 o 31 de cada mes, Atlas no ejecuta la tarea de archivado en los meses que no tienen estas fechas (por ejemplo, febrero).

    • Intervalo de tiempo, en horas. Seleccionar el periodo de tiempo durante el cual desea que Atlas ejecute la tarea de archivo de datos. Especificar un mínimo de dos horas. Si una tarea en ejecución no se completa durante la ventana de tiempo especificada, Atlas continúa ejecutando la tarea hasta que se complete.

7
8

IMPORTANTE: el archivo debe tener al menos un campo de partición.

Introduzca hasta dos de los campos de query de uso más común de la colección en los campos Second most commonly queried field y Third most commonly queried field respectivamente. Para especificar campos anidados, utilizar la notación de puntos. No incluir comillas ("") alrededor de los campos anidados que se especifiquen utilizando notación de puntos.

Advertencia

No se pueden especificar nombres de campos que contengan puntos (.) para la partición.

Los campos especificados se utilizan para dividir sus datos archivados. Las particiones son similares a las carpetas. El campo de fecha está en la primera posición de la partición por defecto para el criterio Date Match. Puede mover otro campo a la primera posición de la partición si frecuentemente hace query por ese campo.

El orden de los campos listados en la ruta es importante de la misma manera que en Índices compuestos. Los datos en la ruta especificada se particionan primero por el valor del primer campo, luego por el valor del siguiente campo, y así sucesivamente. Atlas soporta queries sobre los campos especificados utilizando las particiones.

Por ejemplo, supongamos que está configurando el archivo en línea de la colección movies en la base de datos sample_mflix. Si el campo archivado es el campo de fecha released, que movió a la tercera posición, el primer campo consultado es title y el segundo campo consultado es plot, la partición se parecerá a lo siguiente:

/title/plot/released

Atlas crea particiones primero para el campo title, seguido por el campo plot, y luego para el campo released. Atlas utiliza las particiones para consultas en los siguientes campos:

  • El campo title,

  • el campo title y el campo plot,

  • el campo title y el campo plot y el campo released.

Atlas también puede utilizar las particiones para soporte de una query en los campos title y released. Sin embargo, en este caso, Atlas no sería tan eficiente en soportar la query como lo sería si la query se realizara solo sobre los campos title y plot. Las particiones se analizan en orden; si una query omite una partición en particular, Atlas es menos eficiente al utilizar cualquier partición que la siga. Dado que una query en title y released omite plot, Atlas utiliza la partición title de manera más eficiente que la partición released para soportar esta query.

Atlas no puede utilizar la estrategia de particionamiento para dar soporte de forma eficaz a querys en campos no especificados aquí. Además, Atlas no puede utilizar las particiones para soportar queries que incluyan los siguientes campos sin el campo title:

  • El campo plot,

  • el campo released, o

  • los campos plot y released.

  • Elige campos que contengan solo caracteres compatibles con AWS. Para obtener más información sobre los caracteres que debes evitar, consulta Creación de nombres de claves de objetos. Atlas omite y no archiva documentos que contienen caracteres no admitidos.

  • Elegir campos que no contengan datos polimórficos. Atlas determina el tipo de dato de un campo de partición al muestrear 10 documentos de la colección. Atlas no archivará un documento si el valor del campo especificado en un documento no coincide con los valores de otros documentos de la misma colección.

  • Seleccione los campos que consulta con frecuencia y ordénelos desde el más consultado, que ocupará la primera posición, hasta el menos consultado, que ocupará la última.

IMPORTANTE: para los en linea archivos creados antes de junio 2023, MongoDB no recomienda utilizar campos de tipo string con alta cardinalidad como campo de query para los en linea archivos. Para los campos de tipo string con alta cardinalidad, Atlas crea un gran número de particiones. Esto no se aplica a los archivos en linea creados después de junio 2023. Para aprender más, lee la publicación de MongoDB blog.

Atlas ofrece soporte para los siguientes tipos de atributos de partición:

  • date

  • double

  • int

  • long

  • objectId

  • string

  • boolean

Para aprender más sobre los tipos de atributos de partición compatibles, consultar Partition Attribute Types.

IMPORTANTE: puedes usar el comando explain para devolver información sobre la partición de datos que se utilizan para satisfacer una query. Para obtener más información, consulta explain.

Aunque las particiones mejoran el rendimiento de las queries, las queries que no contienen estos campos requieren un escaneo de colección completo de todos los documentos archivados, lo que tomará más tiempo y aumentará los costos. Para aprender más sobre cómo las particiones mejoran el rendimiento de los queries en Atlas Data Federation, consultar Data Structure in S3.

9

Puede revisar la siguiente configuración de reglas de archivado:

  • El nombre de la base de datos y de la colección

  • El nombre del proveedor de nube y la región del proveedor de nube

  • El nombre del campo de tiempo

  • Número de días que se deben conservar los datos en el clúster Atlas.

  • El número de días después de los cuales se deben borrar los datos archivados

  • La frecuencia y la ventana de tiempo para archivar datos

  • Los campos de partición

Hacer clic en Back para editar estos ajustes si es necesario.

10

Puedes ejecutar `explain` en la consulta para comprobar si utiliza un índice. Si los campos no están indexados, continúa con el siguiente paso para crear el índice. Si los campos ya están indexados, pasa al último paso.

11
12
  1. Haz clic en Begin Archiving en la pestaña Confirm an online archive.

  2. Haz clic en Confirm en la ventana Begin Archiving.

ADVERTENCIA: una vez que el documento esté en cola para archivarse, ya no se podrá editar el documento. Consultar Restauración de documentos específicos del Archivo en línea para mover los datos archivados de nuevo al clúster activo de Atlas.