Tiempo estimado de finalización: 15 minutos
Esta parte del tutorial lo guía a través de la implementación de una instancia de base de datos federada utilizando los siguientes asistentes de inicio rápido en la interfaz de usuario de Atlas:
El El asistente para sistemas descendentes de alimentación le ayuda a configurar una instancia de base de datos federada que exporta datos desde su clúster Atlas y transforma los datos en Parquet., CSV, BSON, o MongoDB Extended JSON, y copia los datos a sus depósitos AWS S3 en intervalos específicos mediante activadores Atlas.
El asistente Explorar con datos de muestra le ayuda a configurar una instancia de base de datos federada cargada con datos de muestra para demostrar cómo conectarse a la instancia de base de datos federada y ejecutar consultas.
El asistente Consulta de datos en clústeres le ayuda a configurar una instancia de base de datos federada que accede a datos de varios clústeres Atlas para que pueda ejecutar consultas federadas en colecciones de todos ellos.
Para obtener más información sobre las opciones de configuración de almacenamiento, consulta Configurar almacenes de datos para una instancia federada de base de datos.
Acceso requerido
Para implementar una instancia de base de datos federada, debe tener Project Owner acceso al proyecto.
Importante
Los usuarios con acceso deben agregarse Organization Owner como Project Owner al proyecto antes de implementar su instancia de base de datos federada.
Requisitos previos
Para completar esta parte del tutorial, asegúrese de cumplir los siguientes requisitos previos:
Cree una cuenta MongoDB Atlas, si aún no tiene una.
Para el asistente de sistemas de alimentación descendente, necesita:
La CLI de AWS, configurada para acceder a su cuenta de AWS. Alternativamente, debe tener acceso a la Consola de administración de AWS con permiso para crear roles de IAM.
Un depósito S3 para almacenar datos extraídos.
Al menos un clúster Atlas con una base de datos.
Para el asistente Consultar datos entre clústeres, necesita:
Al menos un clúster Atlas implementado en el mismo proyecto que utilizará para su instancia de base de datos federada.
Al menos una colección de bases de datos. Puedes cargar datos de muestra si aún no tienes colecciones.
Utilice el Asistente para sistemas de alimentación descendente
El asistente de sistemas de alimentación descendente le ayuda a configurar una instancia de base de datos federada que escribe datos desde su clúster Atlas a su bucket de AWS S3 de manera continua según un cronograma.
Especifique sus fuentes de datos.
Seleccione un clúster de Atlas para usar como fuente de datos desde el desplegable. Por defecto, Atlas Data Federation añade todas las colecciones en este clúster. Para usar un subconjunto de los datos, haz clic en Specific Collections, expande las bases de datos y luego selecciona las colecciones que deseas añadir a tu instancia federada de base de datos.
Tip
Para filtrar las bases de datos y colecciones, introduzca texto en el campo Specific Collections. El cuadro de diálogo solo muestra las bases de datos y colecciones cuyos nombres coinciden con sus criterios de búsqueda.
Haga clic en Continue.
Selecciona un rol IAM de AWS para Atlas.
Puede seleccionar un rol de AWS IAM existente para el cual Atlas esté autorizado desde la lista desplegable de selección de roles o elegir Authorize an AWS IAM Role para autorizar un nuevo rol.
Si seleccionó un rol existente para el cual Atlas está autorizado, continúe con el siguiente paso para enumerar sus buckets de AWS S.3
Si está autorizando a Atlas para un rol existente o está creando un rol nuevo, complete los siguientes pasos antes de continuar con el siguiente paso:
En el menú desplegable, seleccione Authorize an AWS IAM Role para autorizar un nuevo rol o seleccionar un rol existente.
Utiliza el AWS ARN y el ID externo único en la sección Role Authorization para agregar Atlas a las relaciones de confianza de un rol IAM de AWS existente o nuevo.
En la interfaz de usuario de Atlas, haga clic en una de las siguientes opciones:
El Create new AWS IAM role muestra cómo usar el ARN y el ID externo único para agregar Atlas a las relaciones de confianza de un nuevo rol de AWS IAM. Siga los pasos de la interfaz de usuario de Atlas para crear un nuevo rol. Para obtener más información, consulte Crear un nuevo rol con la CLI de AWS.
Al autorizar un nuevo rol, si abandona el flujo de trabajo:
Antes de validar el rol, Atlas no creará la instancia de base de datos federada. Puede ir a la Integrations página Atlas para autorizar un nuevo rol y, a continuación, iniciar el procedimiento de implementación de una instancia de base de datos federada de nuevo cuando tenga el ARN del rol de AWS IAM.
Tras validar el rol, Atlas no creará la instancia de base de datos federada. Sin embargo, el rol está disponible en el menú desplegable de selección de roles y puede usarse para crear una instancia de base de datos federada. No es necesario volver a autorizar el rol.
El Use existing AWS IAM role muestra cómo usar el ARN y el ID externo único para agregar Atlas a las relaciones de confianza de un rol de AWS IAM existente. Siga los pasos de la interfaz de usuario de Atlas para agregar Atlas a la relación de confianza de un rol existente. Para obtener más información, consulte Agregar relaciones de confianza a un rol existente.
Importante
Si modifica su ARN de rol de AWS personalizado en el futuro, asegúrese de que la política de acceso del rol incluya el acceso apropiado a los recursos S para la instancia de base de datos federada.3
Para obtener más información,consulte Configurar el acceso unificado a AWS y Crear un rol de acceso de proveedor de nube.
Haga clic en Validate AWS IAM role.
Programe sus extracciones de datos.
Programe un disparador para copiar continuamente datos desde su clúster Atlas a su bucket S3 usando $out en la Schedule Queries sección.
Especifique con qué frecuencia desea extraer datos de su clúster Atlas utilizando los menús desplegables Repeat Once By.
Opcional. Especifique si Atlas Data Federation debe volver a ejecutar la misma consulta si no se pudo realizar por algún motivo. De forma predeterminada, esta opción está deshabilitada para permitir que Atlas Data Federation vuelva a ejecutar las consultas no realizadas. Como alternativa, para omitir las consultas no realizadas y no recuperarlas,Skip Catch Up Events active.
Opcional. Elija el formato que desee para sus datos cuando Atlas Data Federation los escriba en su bucket S.Atlas Data3 Federation admite Parquet, CSV, BSON y MongoDB Extended JSON.
Especifique Max File Size para 3 limitar Max File Size 100 1 el 3 tamaño 10 100 de cada archivo que Atlas Data Federation escribe en su bucket S. Por ejemplo, si establece en MB y una consulta devuelve GB de datos, Atlas Data Federation escribe la consulta en su bucket S en archivos, cada uno de MB.
Ingrese el prefijo de AWS para su depósito S3 de destino.
Introduzca el nombre del campo de fecha indexado en Date Field y especifique el formato de su valor mediante el menú desplegable. Cada colección que desee copiar posteriormente debe tener un campo indexado que almacene una marca de tiempo como valor.
Haga clic en Continue.
Utilice el Asistente para explorar con datos de muestra
El asistente Explorar con datos de muestra le ayuda a configurar una instancia de base de datos federada cargada con datos de muestra.
Esta instancia de base de datos federada incluye los siguientes conjuntos de datos de muestra que puede utilizar para practicar la ejecución de consultas:
/airbnb/listingsAndReviews/{bedrooms int}/{review_scores.review_scores_rating int}/Esta ruta hace referencia al conjunto de datos
airbnb, que contiene los detalles del anuncio de la casa vacacional y las reseñas de los clientes. Para obtener más información sobre este conjunto de datos, consulte Conjunto de datos de muestra de listados de AirBnB.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en los campos
bedroomsyreview_scores.review_score_ratings./analytics/accounts/{limit int}/Esta ruta hace referencia al
analyticsconjunto de datos, que contiene datos de una aplicación típica de servicios financieros. Para obtener más información sobre este conjunto de datos, consulte el Conjunto de datos de ejemplo de Analytics.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en el campo
limit./analytics/customers/{birthdate isodate}/Estos datos hacen referencia al
analyticsconjunto de datos, que contiene colecciones de una aplicación típica de servicios financieros. Para obtener más información sobre este conjunto de datos, consulte el Conjunto de datos de ejemplo de Analytics.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en el campo
birthdate./analytics/transactions/{account_id int}/Esta ruta hace referencia al conjunto
analyticsde datos, que contiene datos de una aplicación típica de servicios financieros. Para obtener más información sobre este conjunto de datos, consulte el Conjunto de datos de ejemplo de Analytics.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en el campo
account_id./mflix/movies/{type string}/{year int}/Esta ruta hace referencia al conjunto
mflixde datos, que contiene información sobre películas y salas de cine. Para obtener más información sobre este conjunto de datos, consulte el conjunto de datos de ejemplo de Mflix.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en los campos
typeyyear./mflix/sessions.jsonEsta ruta hace referencia al conjunto
mflixde datos, que contiene información sobre películas y salas de cine. Para obtener más información sobre este conjunto de datos, consulte el conjunto de datos de ejemplo de Mflix.Esta ruta no contiene ningún atributo de partición y, por lo tanto, para las consultas sobre los datos de la colección, Data Federation busca todos los archivos de la colección.
/mflix/theaters/{theaterId string}/{location.address.zipcode string}/Esta ruta hace referencia al conjunto
mflixde datos, que contiene información sobre películas y salas de cine. Para obtener más información sobre este conjunto de datos, consulte el conjunto de datos de ejemplo de Mflix.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en los campos
theaterIdylocation.address.zipcode./mflix/users.jsonEsta ruta hace referencia a la
mflixcolección, que contiene datos sobre películas y salas de cine. Para obtener más información sobre este conjunto de datos, consulte el conjunto de datos de ejemplo de Mflix.Esta ruta no contiene ningún atributo de partición y, por lo tanto, para las consultas sobre los datos de la colección, la instancia de base de datos federada busca todos los archivos de la colección.
/nyc-yellow-cab-trips/{trip_start_isodate isodate}/{passenger_count int}/{fare_type string}/Esta ruta hace referencia al conjunto de datos
nyc-yellow-cab-trips, que contiene datos sobre los viajes, incluida la fecha del viaje, la tarifa y el número de pasajeros.Para esta ruta, la instancia de base de datos federada utiliza particiones optimizadas para consultas en los campos
trip_start_isodate,passenger_countyfare_type.
Utilice el Asistente para consultar datos en clústeres
El asistente Consulta de datos entre clústeres le ayuda a configurar una instancia de base de datos federada que accede a datos de múltiples clústeres de Atlas.
Especifique los clústeres Atlas que se utilizarán como fuentes de datos.
Seleccione un clúster de Atlas para usarlo como fuente de datos en el menú desplegable. Atlas solo muestra los clústeres de su proyecto actual en este menú desplegable.
Expanda las bases de datos y seleccione las colecciones que desea agregar a su instancia de base de datos federada.
Tip
Para filtrar las bases de datos y colecciones, introduzca texto en el campo Specific collections. El cuadro de diálogo solo muestra las bases de datos y colecciones cuyos nombres coinciden con sus criterios de búsqueda.
Opcional. Expanda la Cluster Read Preference configuración para configurar los siguientes campos.
Nombre de campoDescripciónRead Preference Mode
Especifica el miembro del conjunto de réplicas al que se dirigen las solicitudes de lectura. Puede elegir una de las siguientes opciones en el menú desplegable:
primary- para enrutar todas las solicitudes de lectura al conjunto de réplicas principalprimaryPreferred- para enrutar todas las solicitudes de lectura al conjunto de réplicas principal y a los miembros secundarios solo siprimaryno está disponiblesecondary- para dirigir todas las solicitudes de lectura a los miembros secundarios del set de réplicassecondaryPreferred- para dirigir todas las solicitudes de lectura a los miembros secundarios del set de réplicas y solo al principal en clústeres particionados si los miembrossecondaryno están disponiblesnearest- para enrutar todas las solicitudes de lectura a un miembro aleatorio del conjunto de réplicas elegible, independientemente de si ese miembro es primario o secundario
Si agrega un clúster Atlas como tienda, el valor predeterminado es
secondary.Si no configura nada en la configuración de almacenamiento de su instancia de base de datos federada, el valor predeterminado
nearestes. Para obtener más información, consulte Modo de preferencia de lectura.IMPORTANTE: Federación de datos e impacto en el nodo principal
Cuando las consultas de federación de datos se configuran con una preferencia de lectura dirigida a nodos secundarios, no se espera que generen carga en el nodo principal del clúster Atlas de respaldo. Las consultas iniciadas en un nodo secundario mantienen la afinidad del cursor con ese nodo durante su ciclo de vida.
En algunos registros, pueden aparecer operaciones
getMorecon una preferencia de lecturaprimaryPreferred. Este comportamiento es normal y no indica que el cursor haya cambiado al nodo principal. El modoprimaryPreferredes válido tanto en los nodos principal como secundario y permite a los controladores gestionar cambios de rol poco frecuentes (como que un nodo secundario se convierta en principal) sin tener que volver a ejecutar la consulta. La ejecución del cursor continúa en el nodo original a menos que este cambie de rol.La Federación de Datos aísla sus cargas de trabajo del nodo principal sin necesidad de configuración adicional. El modo
primaryPreferredgarantiza la compatibilidad con los nodos principal y secundario, lo que permite a los controladores gestionar cambios de rol poco frecuentes (como que un nodo secundario se convierta en principal) sin tener que volver a ejecutar la consulta. La ejecución del cursor continúa en el nodo original a menos que este cambie de rol.TagSets
Especifica la lista de etiquetas o documentos de especificación de etiquetas que contienen pares de nombre y valor para el miembro del conjunto de réplicas al que se desean enrutar las solicitudes de lectura. Para obtener más información, consulte Conjuntos de etiquetas de preferencia de lectura.
Maxstaleness Seconds
Especifica el retardo máximo de replicación, o "obsolescencia", para las lecturas de los secundarios. Para obtener más información, consulte Preferencia de lectura maxStalenessSeconds.
Haga clic en Add Atlas cluster and collection y repita estos pasos para todos los clústeres Atlas que desee utilizar como fuentes de datos.
Una vez que haya terminado de agregar clústeres, haga clic en Continue.
Próximos pasos
Ahora que su instancia de base de datos federada está implementada, proceda a Configurar la conexión para su instancia de base de datos federada.