Visualize e analise métricas de desempenho
O binário AJO expõe métricas de tempo de execução do controlador padrão no http://localhost:8080/metrics. lá, você pode encontrar o seguinte:
Número total de erros de reconciliação e reconciliações bem-sucedidas por controlador.
Comprimento das filas de reconciliação por controlador.
Latência de reconciliação.
Métricas de recursos padrão, como CPU, uso de memória e uso do descritor de arquivo.
Métricas de tempo de execução do Go, como o número de rotinas de Go e a duração do TG.
Para saber mais,consulte Métricas do controlador.
Manual do SRE
Recurso preso na reconciliação
Problema: recurso preso na reconciliação
Esse problema ocorre quando o recurso AtlasProject
não está em um estado Ready
. Pode ocorrer com cada tipo de recurso do Atlas Kubernetes Operator .
Os sintomas
O recurso não está em um estado
Ready
.Uma alta taxa de erro.
Para monitorar a taxa de erro, você pode criar uma consulta para calcular a taxa de erro de reconciliação para o controlador AtlasProject
como uma porcentagem no último minuto. Essa métrica ajuda a identificar e monitorar a integridade e estabilidade do controlador AtlasProject
. Uma porcentagem de erro alta ou crescente indica problemas no processo de reconciliação.
Query de exemplo
Para calcular a taxa de erro, use a seguinte query do Prometeus:
100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])
Status
Verifique a condição de status do recurso para obter mais detalhes:
status: conditions: - type: Ready status: "False" reason: ....
Itens de ação
Verificar status do recurso:
Verifique a mensagem da condição de status para obter informações mais detalhadas.
Se o
AtlasProject
não estiver pronto, prossiga para as próximas etapas de solução de problemas.
Verifique o segredo da conexão:
Certifique-se de que o segredo de conexão referenciado por
spec.connectionSecretRef.name
esteja corretamente rotulado comatlas.mongodb.com/type=credentials
.
Investigar registros:
Revise os registros do controlador
AtlasProject
em busca de possíveis erros ou tentativas de reconciliação com falha.