/ /

Optimizar el rendimiento del query

El rendimiento de su instancia federada de base de datos se ve afectado por los siguientes factores:

El tamaño de tus archivos de datos.
El formato y la estructura de tus archivos de datos.

Consulta las siguientes secciones para aprender a optimizar el rendimiento de las queries de tu instancia federada de base de datos.

Tamaño del archivo de datos

Cada archivo que Atlas Data Federation maneja requiere cierta cantidad de recursos informáticos. Si el almacén de la instancia federada de base de datos contiene muchos archivos de datos pequeños, los recursos necesarios se acumulan y pueden reducir el rendimiento. Alternativamente, muchos archivos grandes de datos resultan problemáticos, ya que la Data Federation descarga y procesa datos innecesarios.

Para la mayoría de los casos de uso, un tamaño de archivo eficiente es de 100 a 200 MB.

Formato de archivo de datos

Las instancias federadas de base de datos admiten varios formatos de archivos de datos. Puedes mejorar el rendimiento comprimiendo ciertos formatos de archivos u optimizando el contenido de archivos para tus consultas.

Compresión

Cuando comprimes archivos de datos, tardan menos en descargarse. Reducir el tiempo de descarga tiene un mayor beneficio en el rendimiento que analizar datos no comprimidos.

Puede comprimir los siguientes formatos de archivo utilizando gzip:

JSON (Notación de objetos JavaScript)
BSON (Notación de objetos JavaScript binarios)
CSV
TSV

Estructura del archivo

Parquet, Avro, y ORC los archivos contienen metadatos sobre el propio archivo para que una aplicación pueda recorrer los contenidos del archivo de diferentes maneras. Si estructuras tu archivo de datos para alinearlo con las consultas que deseas ejecutar, Atlas Data Federation puede aprovechar estos metadatos para ir rápidamente a los datos correctos.

De estos formatos, los archivos Parquet proporcionan el mejor rendimiento y eficiencia de espacio para la instancia federada de base de datos, ya que está optimizada para analizar los grupos de filas y columnas para Parquet.

Estructura de datos en S3

En AWS S3 Buckets, la estructura de los datos y la forma en que la defines en el archivo de configuración afectan el rendimiento de la instancia de base de datos federada.

Para facilitar la gestión, asegúrate de que tus datos estén agrupados lógicamente en particiones. Atlas Data Federation utiliza particiones que se crean con los valores de campo que se especifican en la sintaxis de partición. Puedes mejorar el rendimiento de tu instancia de base de datos federada asegurándote de que tu estructura de partición se ajuste a tus patrones de query y que la estructura de partición esté definida en tu databases.[n].collections.[n].dataSources.[n].path. Para la partición, elige los campos que haces queries con frecuencia y ordénalos desde el más query en la primera posición, hasta el menos query en la última posición.

El orden de los campos enumerados en el databases.[n].collections.[n].dataSources.[n].path es importante de la misma manera que lo es en índices compuestos. La ruta especificada corresponde a datos que se particionan primero por el valor del primer campo y, a continuación, por el valor del siguiente campo, y así sucesivamente.

Ejemplo

Considera una colección con los campos software, computer y OS y particiones en el bucket S3 llamado metrics primero para el campo software, seguido por el campo computer y luego el campo OS.

metrics
|--software
   |--computer
      |--OS

Atlas Data Federation utiliza las particiones para las consultas en estos campos:

El campo software,
el campo software y el campo computer,
el campo software y el campo computer y el campo OS.

Atlas Data Federation puede usar las particiones para admitir una query en los campos software y OS. Sin embargo, en este caso, Atlas Data Federation no es tan eficiente para la query como lo sería si la query fuera solo sobre los campos software y computer. Las particiones se analizan en orden; si una query omite una partición particular, Atlas Data Federation es menos eficiente en el uso de cualquier partición que siga a la partición. Debido a que una query en software y OS omite computer, Atlas Data Federation utiliza la partición software de manera más eficiente que la partición OS para respaldar esta query.

Atlas Data Federation no puede usar las particiones para admitir consultas en campos no especificados en el databases.[n].collections.[n].dataSources.[n].path. Además, Atlas Data Federation no puede utilizar las particiones para admitir queries que incluyan los siguientes campos sin el campo software:

El campo computer,
el campo OS, o
los campos computer y OS.

Puedes utilizar particiones para mejorar el rendimiento de Data Federation mediante su asignación a atributos de partición en tu configuración. Al mapear tus atributos de partición (las partes de tu prefijo de S3 que parecen una carpeta) a un atributo de query, Atlas Data Federation puede abrir selectivamente los archivos que contienen datos relacionados con tu query. Esto reduce el tiempo que tarda una query y disminuye el costo, porque Data Federation lee y descarga menos archivos de AWS.

Ejemplo

Considera un bucket S3 metrics con la siguiente estructura:

metrics
|--hardware
|--software
   |--computer
   |--phone

Puede configurar un atributo de partición para el "tipo de métrica" definiendo /metrics/{metric_type string}/* en su configuración. Si emites una query que contiene {metric_type: software}, Data Federation solo procesará los archivos con el prefijo /software e ignorará los archivos con el prefijo /hardware.

Luego, puede establecer un atributo de partición para "tipo de software" definiendo /metrics/{metric_type string}/{software_type string} en su configuración. Si emites una query que contiene {metric_type: software, software_type: computer}, Data Federation ignora los archivos con el prefijo /phone.

Para obtener más información sobre cómo asignar atributos de partición a una colección databases.[n].collections.[n].dataSources.[n].path, consulta Definir la sintaxis del archivo de ruta.

Volver

CSV y TSV

Generar colecciones