Ver y analizar métricas de rendimiento
El binario AKO expone métricas estándar de controller-runtime en http://localhost:8080/metricsAllí podrás encontrar lo siguiente:
Número total de errores y reconciliaciones exitosas por controlador.
Longitud de las colas de reconciliación por controlador.
Latencia de reconciliación.
Métricas de recursos estándar, como CPU, uso de memoria y uso de descriptores de archivos.
Métricas del entorno de ejecución de Go, como el número de rutinas Go y la duración de GC.
Para obtener más información, consulta Métricas del controlador.
SRE Runbook
Recurso atascado en reconciliación
Problema: Recurso atascado en la conciliación
Este problema ocurre cuando el AtlasProject El recurso no está en estado Ready. Esto puede ocurrir con cualquier tipo de recurso de operador de Kubernetes de Atlas.
Síntomas
El recurso no está en un estado
Ready.Una alta tasa de error.
Para supervisar la tasa de error, puedes crear una query para calcular la tasa de error de reconciliación del controlador AtlasProject como un porcentaje durante el último minuto. Este indicador ayuda a identificar y la supervisión la salud y la estabilidad del controlador AtlasProject. Un porcentaje de errores elevado o en aumento indica problemas en el proceso de conciliación.
query de ejemplo
Para calcular la tasa de error, utiliza la siguiente query de Prometheus:
100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])
Estado
Consulta la condición del estado del recurso para obtener más detalles:
status: conditions: - type: Ready status: "False" reason: ....
Elementos de acción
Verificar estado de recursos:
Verifica el mensaje de la condición de estado para obtener información más detallada.
Si el
AtlasProjectno está listo, procede con los siguientes pasos de solución de problemas.
Verificar conexión secreta:
Asegúrate de que el secreto de conexión al que hace referencia
spec.connectionSecretRef.nameesté correctamente etiquetado conatlas.mongodb.com/type=credentials.
Investigue Registros:
Revisar los registros del controlador
AtlasProjecten busca de posibles errores o intentos fallidos de reconciliación.