성능 지표 보기 및 분석
AKO 바이너리는 http://localhost:8080/ 지표 에 표준 컨트롤러 런타임 지표 노출합니다. 여기에서 다음을 찾을 수 있습니다.
컨트롤러당 조정 오류 및 성공적인 조정의 총 개수입니다.
컨트롤러당 조정 대기열의 길이입니다.
조정 지연 시간.
CPU, 메모리 사용량, 파일 설명자 사용량과 같은 표준 리소스 지표 입니다.
Go 고 (Go) 수 및 GC 기간과 같은 고 (Go) 런타임 지표 입니다.
SRE 런북
조정에 갇힌 리소스
문제: 조정에 갇힌 리소스
이 문제는 AtlasProject
리소스 Ready
상태 아닐 때 발생합니다. 모든 Atlas Kubernetes Operator 리소스 유형에서 발생할 수 있습니다.
증상
리소스
Ready
상태 아닙니다.오류율이 높습니다.
오류율을 모니터 하려면 쿼리 를 만들어 AtlasProject
컨트롤러의 조정 오류율을 지난 1분 동안의 백분율로 계산할 수 있습니다. 이 지표는 AtlasProject
컨트롤러의 상태와 안정성을 식별하고 모니터링 데 도움이 됩니다. 오류 비율이 높거나 높아지면 조정 프로세스 에 문제가 있음을 나타냅니다.
쿼리 예시
오류율을 계산하려면 다음 Prometheus 쿼리 사용합니다.
100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])
상태
자세한 내용은 리소스 상태 조건을 확인하세요.
status: conditions: - type: Ready status: "False" reason: ....
작업 항목
리소스 상태 확인:
자세한 내용은 상태 조건 메시지를 확인하세요.
AtlasProject
이(가) 준비되지 않은 경우 다음 문제 해결 단계를 진행하세요.
연결 비밀 확인:
spec.connectionSecretRef.name
에서 참조하는 연결 비밀이atlas.mongodb.com/type=credentials
(으)로 올바르게 레이블이 지정되었는지 확인합니다.
로그 조사:
AtlasProject
컨트롤러의 로그를 검토하여 잠재적인 오류나 실패한 조정 시도가 있는지 확인합니다.