本页描述可以触发警报的条件。配置警报时可指定条件和阈值。要了解更多信息,请参阅警报工作流程。
注意
M0 免费集群和 Flex 集群仅触发与这些集群支持的指标相关的警报。有关 M0 和 Flex 集群警报及指标限制的完整文档,请参阅 Atlas M0(免费集群)限制以及 Atlas Flex限制。
主机警报
如果您在配置警报时选择 Host(主机)作为警报目标,则本部分中的条件适用。您可以将条件应用于所有主机或特定类型的主机,例如主节点或配置服务器。
Atlas 会根据集群监控触发某些托管警报,因此会受到粒度变化的影响。要了解更多信息,请参阅监控数据存储粒度。
顾问
断言
以下警报条件衡量从 MongoDB serverStatus 命令的 asserts 文档中收集的 MongoDB 进程的断言速率。您可以通过集群监控来查看断言。
自动伸缩 (Auto-Scaling)
您可以为以下集群事件配置警报。查看操作日志查看发生的所有自动伸缩事件。
对于本节中的每个事件,要接收警报,您必须首先配置一个警报,以通知您或您组织的成员此类自动伸缩事件。
要了解 Atlas 如何扩展或缩减集群,请参阅配置自动伸缩。
Auto-scaling: Compute auto-scaling initiated for base tier如果 Atlas 为专用集群中的任何操作节点启动计算自动伸缩,则引发此事件。作为此事件的一部分,Atlas 可以扩展磁盘容量。
Auto-scaling: Compute auto-scaling initiated for analytics tier如果 Atlas 为专用集群中的任何分析节点启动计算自动伸缩,则引发此事件。作为此事件的一部分,Atlas 可以扩展磁盘容量。
Auto-scaling: Compute auto-scaling down didn't initiate for base tier due to storage requirements如果因为目标集群层不支持配置的存储大小,Atlas 无法为专用集群中的任何操作节点启动计算自动伸缩,则会引发此事件。
Auto-scaling: Compute auto-scaling down didn't initiate for analytics tier due to storage requirements如果因为目标集群层不支持配置的存储大小,Atlas 无法为专用集群中的任何分析节点启动计算自动伸缩,则会引发此事件。
Auto-scaling: Compute auto-scaling didn't initiate for base tier due to maximum configured cluster tier如果因为您的集群已达到为自动伸缩配置的最大集群层,Atlas 无法扩展操作节点,则引发此事件。
Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to maximum configured cluster tier如果 Atlas 因您的集群达到为自动伸缩配置的最大集群层而无法扩展分析节点,则引发此事件。
Auto-scaling: Compute auto-scaling didn't initiate for base tier due to insufficient oplog size如果 Atlas 因 oplog 容量不足而无法扩展操作节点,则引发此事件。要了解更多信息,请参阅设置最小 Oplog Window。
Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to insufficient oplog size如果 Atlas 因 oplog 容量不足而无法扩展分析节点,则引发此事件。要了解更多信息,请参阅设置最小 Oplog Window。
Auto-scaling: Disk auto-scaling didn't initiate due to the cluster reaching maximum available disk size如果 Atlas 因集群已达到最大可用磁盘容量而无法扩展磁盘容量,则触发该警报。
Auto-scaling: Disk auto-scaling didn't initiate due to insufficient oplog size如果 Atlas 因集群的 oplog 大小不够而无法扩展磁盘大小,则触发该警报。
写入阻塞
以下警报条件适用于 Atlas 中的写入阻塞行为。
Writes have been blocked on your cluster due to critically low disk space当主节点上的磁盘使用率超过写入阻塞策略阈值时引发警报。Atlas 阻止写入到集群节点,以保持读取可用性。
要解决此警报,请手动或通过启用存储自动伸缩来增加集群的存储容量。如需了解更多信息,请参阅磁盘空间使用百分比警报解决方案。
为防止将来发生写入阻塞事件,我们建议您监控集群的磁盘使用情况。要了解更多信息,请参阅防止写入阻塞。
Writes have been unblocked on your cluster当主节点上的磁盘使用率低于解除阻塞阈值时引发,Atlas 会自动解除对集群的写入阻塞。
您可以通过 Real-Time Performance Panel Set 查看磁盘指标。这是一个仅供参考的警报,不需要您采取任何操作。不过,为了防止将来发生写入阻塞事件,我们建议您监控集群的磁盘使用情况。要了解更多信息,请参阅防止写入阻塞。
MongoDB Search
以下警报条件用于测量MongoDB搜索进程使用的 CPU 和内存量。您可以通过集群监控查看MongoDB Search指标。
Atlas Search: Index Replication Lag is如果 MongoDB Search 从 的
mongodoplog 复制更改时延迟的大致毫秒数高于或低于阈值,则触发该警报。
Atlas Search: Max Number of Lucene Docs is如果用于存储给定副本集或分片的MongoDB Search 索引的LuceneDocs数量上限高于阈值,则触发该警报。
Search Process: Disk space used is如果MongoDB Search进程使用的磁盘空间总字节数高于阈值,则触发该警报。
注意
如果将该条件应用于所有主机,则它也适用于专用搜索节点。
平均执行时间
以下警报条件测量 MongoDB 进程的读取、写入或命令的平均执行时间(从 MongoDB serverStatus 命令的 opLatencies 文档收集)。您可以通过集群监控来查看断言。
磁盘吞吐量
以下警报条件可测量 MongoDB 进程的磁盘读写吞吐量。您可以在 Atlas Disk Throughput 图表上查看这些指标,并可通过集群监控访问该图表。
Opcounter
以下警报条件衡量自上次启动 MongoDB 进程以来该进程的数据库操作速率,这些操作是从 MongoDB serverStatus 命令的 opcounters 文档中收集的。您可以通过 集群监控查看 opcounter。
Opcounter: Getmores is如果检索下一个游标批处理的
getmore操作的速率达到指定阈值,则触发该警报。提示
要了解更多信息,请参阅 MongoDB 手册中的游标批处理。
Opcounter - Repl
以下警报条件可用于测量对 MongoDB 从节点执行的数据库操作的速率,它们是从 MongoDB serverStatus 命令的 opcountersRepl 文档中收集的。您可以在 Opcounters - Repl 图表上查看这些指标,可通过集群监控访问该图表。
操作扫描和排序
您可以为 MongoDB 进程的扫描和排序操作设置警报。
Atlas 免费集群
内存
以下条件测量 MongoDB 进程的内存,内存是从 MongoDB serverStatus 命令的 mem 文档收集的。您可以在 Atlas Memory 和 Non-Mapped Virtual Memory 图表上查看这些指标,可通过集群监控访问这些图表。
Memory: Computed is如果内存映射未考虑的虚拟内存大小满足指定阈值,则触发该警报。如果该数字非常高(多个 GB),则表明在内存映射之外使用过多内存。
提示
要了解如何使用此指标,请查看 Non-Mapped Virtual Memory 图表并点击图表的 i 图标。
Memory: Virtual is如果
mongod进程的虚拟内存大小达到指定阈值,则触发该警报。您可以使用此警报来标记内存映射之外的过多内存。提示
要了解更多信息,请点击 Memory 图表的 i 图标。
连接
以下警报条件测量 MongoDB 进程的连接数,该连接数是从 MongoDB serverStatus 命令的 connections 文档收集的。您可以在 Atlas Connections 图表上查看该指标,可通过集群监控访问该图表。
Queues
以下警报条件测量从 MongoDB serverStatus 命令的 globalLock 文档收集的等待锁的操作数。您可以在 Atlas Queues 图表上查看这些指标,可通过集群监控访问该图表。
Queues: Readers is如果等待读锁的操作数达到指定的平均值,则触发该警报。
Queues: Total is如果等待任何类型锁的操作数达到指定的平均值,则触发该警报。
Queues: Writers is如果等待写锁的操作数达到指定的平均值,则触发该警报。
页面错误
以下警报条件衡量从 MongoDB serverStatus 命令的 extra_info.page_faults 字段收集的 MongoDB 进程的页面错误率。
Page Faults is如果页面错误率(无论是否引发异常)达到指定的阈值,则触发。您可以在 Atlas Page Faults 图表上查看该指标,可通过集群监控访问该图表。
Cursors
以下警报条件测量的是 MongoDB 进程的游标数量,这些游标是从 MongoDB serverStatus 命令的 metrics.cursor 文档中收集的。您可以在 Atlas Cursors 图表上查看这些指标,可通过集群监控访问该图表。
网络
以下警报条件测量 MongoDB 进程的吞吐量,吞吐量是从 MongoDB serverStatus 命令的 network 文档收集的。您可以在主机的 Network(网络)图表上查看这些指标,可通过集群监控访问该图表。
复制 Oplog
以下警报条件适用于 MongoDB 进程的 oplog。您可以在以下图表上查看这些指标,可通过集群监控访问这些图表:
Oplog GB/Hour
Replication Headroom
Replication Lag
Replication Oplog Window
以下警报条件应用于 oplog:
数据库存储
以下警报条件适用于由 MongoDB dbStats 命令为 MongoDB 进程收集的数据库存储量。有关 Atlas 如何处理达到数据库存储限制的详细信息,请参阅常见问题解答页面。这些条件基于 MongoDB 进程上所有数据库的总和:
注意
Atlas 默认下每 20 分钟检索一次数据库指标,但会在必要时调整频率以减少对数据库性能的影响。
DB Storage is如果分配的存储满足指定的阈值,则引发此警报。可以在主机的 DB Storage 图表上查看此警报条件,可通过集群监控访问该图表。
namespaces
以下警报条件适用于MongoDB进程中所有非系统数据库的命名空间总数。您可以通过查看 Catalog集群指标来查看有多少个命名空间用于MongoDB进程。
WiredTiger 存储引擎
以下警报条件用于 MongoDB 进程的 WiredTiger 存储引擎,该进程是从 MongoDB serverStatus 命令的 wiredTiger.cache 和 queues.execution 文档收集的。
您可以在以下图表上查看这些指标,可通过集群监控访问这些图表:
Cache Activity
Cache Usage
Tickets Available
Cache Fill Ratio
以下是适用于 WiredTiger 的警报条件:
对于在 MongoDB 7.0 及更高版本上运行的集群,请勿使用工单数量作为过载警报的指标。从 MongoDB 版本 7.0 开始,Atlas 动态调整工单数量。相反,使用排队的读取器和写入器的数量作为过载指标。
系统和磁盘警报
以下警报条件测量 Atlas 服务器集群的使用情况:
注意
目前,Atlas 对数据、索引和日志文件使用单个分区。尽管警报引用各个分区,但它们指向相同的指标。
注意
所有硬件指标都有等效的突发报告,具有不同的可配置警报。要了解更多信息,请参阅突发报告。
Disk space % used on Data Partition is在包含 MongoDB 集合数据的任何分区上使用的磁盘空间的百分比。
要查找此警报的可能解决方案,请参阅警报解决方案。
System: CPU (Steal) % is当 EC2 集群信用余额耗尽时适用。
CPU 使用率超过保证基线 CPU 信用累积率的百分比。CPU 信用是累积的 CPU 利用率单位。信用以恒定速率累积,以提供有保证的性能水平。这些信用可提高 CPU 性能。当信用余额耗尽时,仅提供 CPU 性能的保证基线,超出的量以窃取百分比显示。
注意
Atlas 仅对支持突发性能的 AWS EC2 集群触发此警报。目前,这些为
M10和M20集群类型。
重启
主机关闭
Host is Down如果 Atlas 在几分钟内无法到达主机,则触发该警报。
重要
仅当您依赖于从节点读取时才应配置此警报。有关从节点读取的更多信息,请参阅使用预定义副本集标签进行查询和读取偏好。
该警报通常由以下情况触发:
集群出现故障,正在自动修复。
网络问题导致无法访问集群。
MongoDB Atlas 检查停机并非源于您的操作(例如,滚动索引构建)。MongoDB Atlas 如果确认停机不是故意的,则会尝试替换受影响的节点。如果发生故障,只要大多数节点正在运行,Atlas 集群就会保持节点的读取和写入可用性。要了解更多信息,请参阅 MongoDB Atlas 如何提供高可用性?
基于推送的日志导出 (PBLE)
以下警报条件将应用于基于推送的日志导出功能:
Swap
以下警报条件用于交换空间使用率:
Sort
以下警报条件将应用于排序操作:
Sort: Spill to disk during sort is如果
$sort阶段导致写入磁盘的次数达到指定阈值,则会触发该警报。
不适用的主机条件
以下主机条件不会应用于 Atlas。Atlas 在以下情况下不会生成警报:
不在内存中的访问数:总计为
后台刷新平均值为
B-Tree:访问次数为
B-Tree:命中次数为
B-Tree:未命中次数是
B-Tree:失误率为
游标:客户端游标大小为
有效锁 % 为
写锁中的日志记录提交是
日志记录大小 (MB)
日志写入数据文件大小 (MB) 为
内存:已映射内存容量为
引发的页面错误异常:总数为
查询目标警报
以下警报用于集合上的索引。这两种警报都可能表明索引丢失或效率低下。
提示
要了解有关使用索引来提高性能的更多信息,请参阅索引策略。
MongoDB搜索进程()mongot 用于保持MongoDB搜索索引更新的变更流游标可以提高查询目标比率,并在该比率较高时触发查询目标警报。
云备份警报
以下警报应用于云备份快照。
副本集警报
以下警报条件适用于副本集:
Number of elections in last hour is > X过去一小时内发生的选举数量超过用户指定的
X值触发。X的值是在您创建警报时设置的。此警报可能表明集群的复制未处于健康状态,不断的选举即可证明。
Replica set elected a new primary当副本集选举新的主节点时引发此事件。
分片集群警报
以下警报条件适用于分片集群:
Cluster is missing an active mongos如果 Atlas 无法联系集群的任何
mongos,则引发该警报。
Flex 警报
以下警报条件适用于 Flex 集群:
App Services 警报
以下警报条件适用于 Atlas App Services。
Endpoints Compute Time is如果每秒 HTTPS 端点计算时间达到指定阈值,则触发该警报。
Endpoints Egress Bytes is如果每秒 HTTPS 端点数据出口字节数达到指定阈值,则。
Failed Requests - GraphQL is如果每秒失败的 GraphQL 请求数量达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档。
Failed Requests - Sync is如果每秒失败的 Atlas Device Sync 请求数达到指定阈值,则触发该警报。
GraphQL Compute Time is如果每秒 GraphQL 计算时间达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档。
GraphQL Egress Bytes is如果 GraphQL 每秒数据传出字节数达到指定阈值,则引发警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档。
GraphQL Request Duration P95 is如果 GraphQL 请求的持续时间(以毫秒为单位)的第 95 个百分位数达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档)。
Overall Compute Time is如果每秒总计算时间达到指定阈值,则触发该警报。
Overall Egress Bytes is如果每秒总数据出口节数达到指定阈值,则触发该警报。
SDK Functions Compute Time is如果每秒 SDK 函数计算时间达到指定阈值,则触发该警报。
SDK Functions Egress Bytes is如果每秒 SDK 函数数据出口字节数达到指定阈值,则触发该警报。
SDK MQL Compute Time is如果每秒 SDK MQL 计算时间达到指定阈值,则触发该警报。
SDK MQL Egress Bytes is如果每秒 SDK MQL 数据出口字节数达到指定阈值,则触发该警报。
Session Ended - Sync is如果 Atlas Device Sync 期间每秒结束的会话数达到指定阈值,则触发该警报。
Sync Client Bootstrap Time is如果 Atlas Device Sync 客户端的引导时间的第 95 个百分位数达到指定阈值,则触发该警报。
Sync Client Uploads that failed is如果 Atlas Device Sync 客户端上每秒失败的上传次数达到指定阈值,则触发该警报。
Sync Client Uploads that are invalid如果 Atlas Device Sync 客户端上每秒的无效上传次数达到指定阈值,则触发该警报。
Sync Current Oplog Lag Sum is如果 Atlas Device Sync 滞后 MongoDB oplog 的大致时间长度达到指定阈值,则触发该警报。
Sync Egress Bytes is如果每秒 Atlas Device Sync 数据出口字节数达到指定阈值,则触发该警报。
Sync Num Unsyncable Docs % is如果 App Services 无法同步的文档数量达到指定阈值,则触发该警报。
Triggers Compute Time is如果每秒 Triggers 计算时间达到指定阈值,则触发该警报。
Triggers Current Oplog Lag Sum is如果 App Services Tiggers 滞后 MongoDB oplog 的大致时间长度达到指定阈值,则触发该警报。
Triggers Egress Bytes is如果每秒 Tiggers 数据出口字节数达到指定阈值,则触发该警报。
用户警报
以下警报条件适用于 Atlas 用户。
Organization users do not have multi-factor authentication enabled当组织中的一个或多个用户未启用多因素身份验证时触发。
项目警报
以下警报条件适用于 Atlas 项目。
Encryption at Rest KMS network access denied如果Atlas中的项目无法连接到密钥管理提供商,则触发该警报。在这种情况下, Atlas不会关闭您的进程。所有新项目都会自动运行此警报,以传达任何KMS网络访问权限故障。要学习;了解更多信息,请参阅使用KMS启用静态加密。
Tag(s) were added or modified on project如果您或您的团队添加或更改了项目标签,则触发该警报。
账单警报
以下警报条件用于 Atlas 账单。您可以通过 Atlas 用户界面配置组织级或项目级账单提醒。
要配置组织级别的警报:
在 Atlas 中,转到 Organization Alerts(项目设置)页面。
Organizations如果尚未显示,请从导航栏的 菜单中选择所需的组织。
单击导航栏中的 Alerts 图标。
单击 Organization 标题下的 Alerts。
将显示组织警报页面。
要配置项目级别警报,请执行以下操作:
在 Atlas 中,转到 Project Alerts(项目设置)页面。
a.如果尚未显示,请从导航栏的Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
单击导航栏中的 Alerts 图标。
单击 Project 标题下的 Alerts。
将显示项目警报页面。
注意
所有账单金额均以美元为单位。
Amount billed ($) yesterday is above the threshold如果组织或项目的最近每日账单金额超过配置的阈值,则触发。Atlas 在计算账单金额时,不考虑前一天的任何贷项。
此条件适用于组织和项目。
服务帐户警报
联合警报
Organization's IdP certificate is about to expire如果与您拥有
Organization Owner角色的组织关联的 IdP 证书在 14 天内过期,则引发此警报。Atlas 每天都会发送此警报,直到您确认为止。注意
当您将组织映射到 IdP 提供商时,Atlas 会自动创建此警报。如果您删除该映射,Atlas 将删除此警报的所有实例。
静态加密警报
以下警报条件适用于使用客户密钥管理的静态加密的项目。
AWS encryption key elapsed time since last rotation is above (n) days如果 Atlas 项目使用的 AWS 客户主密钥 (CMK) 的活动天数超过配置的天数(默认为 90 天),则会引发此警报。
要修改警报阈值,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
单击导航栏中的 Alerts 图标。
单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
如果您将默认 90天
alert配置为大于Amazon Web ServicesAmazon Web ServicesKMS KMSAtlas Amazon Web Services集合扫描轮换,则Atlas不会创建警报,因为Amazon Web Services会自动轮换您的集合扫描 。如果您轮换项目 CMK,此警报将自动重置。有关如何轮换项目 CMK 的文档,请参阅轮换 AWS 客户主密钥。
Azure encryption key elapsed time since last rotation is above (n) days如果 Atlas 项目使用的 Azure Key Vault 密钥标识符的活动时间超过配置的天数(默认为 90 天),则触发该警报。
要修改警报阈值,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
单击导航栏中的 Alerts 图标。
单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
如果轮换项目密钥标识符,此警报则会自动重置。有关如何轮换项目密钥标识符的文档,请参阅关于轮换 Azure 密钥标识符。
GCP encryption key elapsed time since last rotation is above (n) days如果 Atlas 项目使用的 GCP 密钥版本资源 ID 的活动天数超过配置的天数(默认为 90 天),则触发该警报。
要修改警报阈值,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
单击导航栏中的 Alerts 图标。
单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
如果您轮换项目密钥版本资源 ID,则此警报会自动重置。
要了解如何轮换项目密钥版本资源 ID,请参阅轮换 GCP 密钥版本资源 ID。
Encryption at Rest KMS network access denied如果您的云提供商的KMS凭证由于网络访问权限限制而无效,则触发该警报。所有新项目都会自动运行此警报,以传达任何KMS网络访问权限故障。
要修改或删除该警报,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
单击导航栏中的 Alerts 图标。
单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
所有新项目均默认启用此警报。
维护窗口警报
以下警报条件适用于已配置维护窗口的项目。
注意
只有当项目具有有效的维护时段时,您才能配置维护窗口警报。
MongoDB 支持访问授权警报
Atlas Stream Processing 警报
以下警报条件应用于运行流处理工作区的项目。
Stream Processor source change stream lag is如果变更流源上的事件与目标流处理器上的事件摄取时间之间的滞后时间高于或低于阈值,则会引发警报。
Stream Processor DLQ message count is如果目标流处理器向死信队列 (DLQ) 写入的每秒消息速率高于或低于阈值,则会引发警报。
Stream Processor source Kafka offset lag is如果 Kafka 源上的偏移延迟总计高于或低于阈值,则会引发警报。