パフォーマンス メトリクスの表示と分析
ACO バイナリは、標準のコントローラー ランタイム メトリクスを http://localhost:8080 /metrics で公開します。ここでは、次の項目を見つけることができます。
コントローラーごとの調整エラーと成功した調整の合計数。
コントローラーごとの調整キューの長さ。
調整レイテンシ。
CPU、メモリ使用量、ファイル記述子使用量などの標準リソースメトリクス。
Goルーチンの数や GP 期間などのGoランタイム メトリクス。
詳細については、ドライバー メトリクス を参照してください。
SRE Runbook
調整中におけるリソースの停止
問題: リソースが調整現在、
この問題は、AtlasProject
リソースがReady
状態でない場合に発生します。これは、すべての Atlas Kubernetes Operatorリソースタイプで発生する可能性があります。
記号
リソースは
Ready
状態ではありません。エラー率が高い。
エラー率を監視するには、AtlasProject
コントローラーの調整エラー率を過去 1 分間のパーセンテージとして計算するクエリを作成します。このメトリクスは、AtlasProject
コントローラーの健全性と安定性を識別してモニタリングするのに役立ちます。エラー割合が高い場合や増加している場合は、調整プロセスに問題があることを示します。
サンプル クエリ
エラー率を計算するには、次の Prometheus クエリを使用します。
100 * rate(controller_runtime_reconcile_errors_total{controller="AtlasProject"}[1m]) / rate(controller_runtime_reconcile_total{controller="AtlasProject"}[1m])
ステータス
詳細については、リソースのステータス条件 を確認します。
status: conditions: - type: Ready status: "False" reason: ....
アクション アイテム
リソース ステータスの確認
詳細については、ステータス条件メッセージを確認してください。
AtlasProject
が準備ができていない場合は、次のトラブルシューティング手順に進みます。
接続シークレットを確認します。
spec.connectionSecretRef.name
が参照する接続シークレットにatlas.mongodb.com/type=credentials
が正しくラベル付けされていることを確認します。
ログの調査:
潜在的なエラーや失敗した調整試行については、
AtlasProject
コントローラーのログを確認してください。