查看和分析性能指标
AKO 二进制文件在 http://localhost:8080 / 指标 上公开标准控制器运行时指标。在那里,您可以找到以下内容:
每个控制器的协调错误和成功协调的总数。
每个控制器的协调队列长度。
协调延迟。
标准资源指标,例如 CPU、内存使用情况和文件使用情况。
Go运行时指标,例如Go例程数量和 GC 持续时间。
要学习;了解更多信息,请参阅控制器指标。
SRE 运行手册
资源陷入协调
问题:资源在协调中停滞
当 AtlasProject资源不处于 Ready 状态时,会出现此问题。每种Atlas Kubernetes Operator资源类型都可能出现这种情况。
症状
资源未处于
Ready状态。错误率高。
要监控错误率,可以创建查询来计算 AtlasProject 控制器的调节错误率,以较前一分钟的百分比表示。此指标有助于识别和监控AtlasProject 控制器的运行状况和稳定性。错误百分比较高或不断上升表示协调进程中存在问题。
示例查询
要计算错误率,请使用以下Prometheus查询:
100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])
状态
检查资源状态条件以了解更多详细信息:
status: conditions: - type: Ready status: "False" reason: ....
操作项
验证资源状态:
检查状态条件消息以获取更多详细信息。
如果
AtlasProject未准备就绪,请继续执行后续故障排除步骤。
检查连接密钥:
确保
spec.connectionSecretRef.name引用的连接密钥正确标有atlas.mongodb.com/type=credentials。
调查日志:
查看
AtlasProject控制器的日志,了解是否存在任何潜在错误或失败的协调尝试。