Docs 菜单
Docs 主页
/ /
/ / /

查看指标并解决资源问题

AKO 二进制文件在 http://localhost:8080 / 指标 上公开标准控制器运行时指标。在那里,您可以找到以下内容:

  • 每个控制器的协调错误和成功协调的总数。

  • 每个控制器的协调队列长度。

  • 协调延迟。

  • 标准资源指标,例如 CPU、内存使用情况和文件使用情况。

  • Go运行时指标,例如Go例程数量和 GC 持续时间。

要学习;了解更多信息,请参阅控制器指标。

AtlasProject资源不处于 Ready 状态时,会出现此问题。每种Atlas Kubernetes Operator资源类型都可能出现这种情况。

  • 资源未处于 Ready 状态。

  • 错误率高。

要监控错误率,可以创建查询来计算 AtlasProject 控制器的调节错误率,以较前一分钟的百分比表示。此指标有助于识别和监控AtlasProject 控制器的运行状况和稳定性。错误百分比较高或不断上升表示协调进程中存在问题。

要计算错误率,请使用以下Prometheus查询:

100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])

检查资源状态条件以了解更多详细信息:

status:
conditions:
- type: Ready
status: "False"
reason: ....
  1. 验证资源状态:

    • 检查状态条件消息以获取更多详细信息。

    • 如果 AtlasProject 未准备就绪,请继续执行后续故障排除步骤。

  2. 检查连接密钥:

    • 确保 spec.connectionSecretRef.name 引用的连接密钥正确标有 atlas.mongodb.com/type=credentials

  3. 调查日志:

    • 查看 AtlasProject 控制器的日志,了解是否存在任何潜在错误或失败的协调尝试。

后退

兼容性

在此页面上