/ /

Configure y resuelva alertas

Configure y resuelva alertas

Resolver alertas

Soluciona problemas de Oplog

Las alertas de oplog de replicación se pueden activar cuando la cantidad de datos de oplog generados en un nodo primario del clúster supera el tamaño del oplog configurado del clúster.

Condiciones de alerta

Puedes configurar las siguientes condiciones de alerta en la página de Configuración de alertas a nivel de proyecto para activar alertas.

Replication Oplog Window is (X) ocurre si la cantidad aproximada de tiempo disponible en el oplog de replicación primaria alcanza o cae por debajo del umbral especificado. Esto se refiere a la cantidad de tiempo que el primario puede continuar registrando dado el ritmo actual en que se genera información de oplog.

Oplog Data Per Hour is (X) se produce si la cantidad de datos por hora que se escriben en el oplog de replicación del primario alcanza o supera el umbral especificado.

Desencadenantes comunes

Estos son algunos eventos comunes que pueden llevar a un aumento de la actividad de oplog:

Operaciones de escritura y actualización intensivas en un corto período de tiempo.
El tamaño del oplog configurado del clúster es menor que el valor en el grafo Oplog GB / Hour observado en la vista de métricas del clúster.

Soluciona el problema inmediato

Estas son algunas acciones posibles a considerar para ayudar a resolver alertas de Replicación Oplog:

Aumenta el tamaño del oplog editando la configuración del clúster para garantizar que sea superior al valor máximo del Oplog GB / Hour grafo en la vista de métricasdel clúster.
Aumenta el tamaño del registro de operaciones (oplog) si prevés que ocurrirán operaciones intensas de guardar y actualizar en un corto periodo de tiempo.

Nota
Es posible que debas incrementar el almacenamiento del clúster para liberar suficiente espacio como para cambiar el tamaño del Oplog.
Asegúrese de que todas las operaciones de escritura especifiquen un nivel de confirmación de escritura (write concern) de majority para garantizar que las escrituras se repliquen al menos en un nodo antes de pasar a la siguiente operación de escritura. Esto controla la tasa de tráfico de su aplicación al evitar que el primario acepte escrituras más rápidamente de lo que los secundarios pueden gestionar.

Implemente una solución a largo plazo

Consulta Cargas de trabajo que podrían requerir un tamaño mayor de Oplog para obtener más información sobre los requisitos de tamaño de oplog para tu caso de uso.

Supervisa tu progreso

Puede que observes los siguientes escenarios cuando se activen estas alertas:

El Oplog GB / Hour grafo en la vista de métricas presenta un fuerte aumento.
El Replication Oplog Window grafo en la vista de métricas es bajo.
El Atlas Ver y descargar registros de MongoDB de nodos secundarios o con fallos muestra el siguiente mensaje:
We are too stale to use <node>:27017 as a sync source.
Un nodo de Atlas reporta un estado de INICIO2 y RECUPERANDO durante un período prolongado de tiempo.

Normalmente, esto indica que el nodo ha "caído del oplog" y no puede mantenerse al día con los datos del oplog que está generando el nodo primario. En este caso, el nodo requerirá una sincronización inicial para recuperarse y garantizar que los datos sean coherentes en todos los nodos. Se puede comprobar el estado de un nodo utilizando el método shell rs.status().

Volver

Primario perdido

Uso de la CPU