/ /

Resolver alertas

Docs Home

/ /

Configure y resuelva alertas

Configure y resuelva alertas

Resolver alertas

Soluciona problemas de Oplog

Se pueden activar alertas de Replicación Oplog cuando la cantidad de oplog Los datos generados en un primario nodo del clúster son más grandes que el tamaño del oplog configurado del clúster.

Condiciones de alerta

Puede configurar las siguientes condiciones de alerta en el nivel de proyecto página de configuración de alertas para activar alertas.

Replication Oplog Window is (X) Se produce si el tiempo aproximado disponible en el registro de operaciones de replicación principal alcanza o es inferior al umbral especificado. Esto se refiere al tiempo que el registro principal puede continuar registrando, dada la velocidad actual de generación de datos del registro de operaciones.

Oplog Data Per Hour is (X) se produce si la cantidad de datos por hora que se escriben en el oplog de replicación del primario alcanza o supera el umbral especificado.

Desencadenantes comunes

Estos son algunos eventos comunes que pueden provocar una mayor actividad del oplog:

Operaciones de escritura y actualización intensivas en un corto período de tiempo.
El tamaño de Oplog configurado del clúster es menor que el valor de la Oplog GB / Hour Gráfico observado en la vista de métricas del clúster.

Soluciona el problema inmediato

Estas son algunas acciones posibles a considerar para ayudar a resolver alertas de Replicación Oplog:

Aumenta el tamaño del oplog editando la configuración del clúster para garantizar que sea superior al valor máximo del Oplog GB / Hour grafo en la vista de métricasdel clúster.
Aumenta el tamaño del registro de operaciones (oplog) si prevés que ocurrirán operaciones intensas de guardar y actualizar en un corto periodo de tiempo.
Nota
Es posible que debas incrementar el almacenamiento del clúster para liberar suficiente espacio como para cambiar el tamaño del Oplog.
Asegúrese de que todas las operaciones de escritura especifiquen un nivel de confirmación de escritura (write concern) de majority para garantizar que las escrituras se repliquen al menos en un nodo antes de pasar a la siguiente operación de escritura. Esto controla la tasa de tráfico de su aplicación al evitar que el primario acepte escrituras más rápidamente de lo que los secundarios pueden gestionar.

Implemente una solución a largo plazo

Consulta Cargas de trabajo que podrían requerir un tamaño mayor de Oplog para obtener más información sobre los requisitos de tamaño de oplog para tu caso de uso.

Supervisa tu progreso

Puede que observes los siguientes escenarios cuando se activen estas alertas:

El Oplog GB / Hour grafo en la vista de métricas presenta un fuerte aumento.
El Replication Oplog Window gráfico en la vista de métricas es bajo.
El Atlas Ver y descargar registros de MongoDB de nodos secundarios o con fallos muestra el siguiente mensaje:
```
We are too stale to use <node>:27017 as a sync source.
```
Un nodo de Atlas reporta un estado de INICIO2 y RECUPERANDO durante un período prolongado de tiempo.
Normalmente, esto indica que el nodo ha "caído del oplog" y no puede mantenerse al día con los datos del oplog que está generando el nodo primario. En este caso, el nodo requerirá una sincronización inicial para recuperarse y garantizar que los datos sean coherentes en todos los nodos. Se puede comprobar el estado de un nodo utilizando el método shell rs.status().

Volver

Primario perdido

Uso de la CPU

Condiciones de alerta

Desencadenantes comunes

Soluciona el problema inmediato

Nota

Implemente una solución a largo plazo

Supervisa tu progreso