Docs Menu
Docs Home
/ /
Atlas Kubernetes 演算子
/

メトリクスの表示とリソースの問題のトラブルシューティング

ACO バイナリは、標準のコントローラー ランタイム メトリクスを http://localhost:8080 /metrics で公開します。ここでは、次の項目を見つけることができます。

  • コントローラーごとの調整エラーと成功した調整の合計数。

  • コントローラーごとの調整キューの長さ。

  • 調整レイテンシ。

  • CPU、メモリ使用量、ファイル記述子使用量などの標準リソースメトリクス。

  • Goルーチンの数や GP 期間などのGoランタイム メトリクス。

詳細については、ドライバー メトリクス を参照してください。

この問題は、AtlasProjectリソースがReady 状態でない場合に発生します。これは、すべての Atlas Kubernetes Operatorリソースタイプで発生する可能性があります。

  • リソースはReady 状態ではありません。

  • エラー率が高い。

エラー率を監視するには、AtlasProject コントローラーの調整エラー率を過去 1 分間のパーセンテージとして計算するクエリを作成します。このメトリクスは、AtlasProject コントローラーの健全性と安定性を識別してモニタリングするのに役立ちます。エラー割合が高い場合や増加している場合は、調整プロセスに問題があることを示します。

エラー率を計算するには、次の Prometheus クエリを使用します。

100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])

詳細については、リソースのステータス条件 を確認します。

status:
conditions:
- type: Ready
status: "False"
reason: ....
  1. リソース ステータスの確認

    • 詳細については、ステータス条件メッセージを確認してください。

    • AtlasProject が準備ができていない場合は、次のトラブルシューティング手順に進みます。

  2. 接続シークレットを確認します。

    • spec.connectionSecretRef.name が参照する接続シークレットに atlas.mongodb.com/type=credentials が正しくラベル付けされていることを確認します。

  3. ログの調査:

    • 潜在的なエラーや失敗した調整試行については、 AtlasProject コントローラーのログを確認してください。

戻る

互換性

項目一覧