/ /

查看警报条件

本页描述可以触发警报的条件。配置警报时可指定条件和阈值。要了解更多信息，请参阅警报工作流程。

注意

M0 免费集群和 Flex 集群仅触发与这些集群支持的指标相关的警报。有关 M0 和 Flex 集群警报及指标限制的完整文档，请参阅 Atlas M0（免费集群）限制以及 Atlas Flex限制。

主机警报

如果您在配置警报时选择 Host（主机）作为警报目标，则本部分中的条件适用。您可以将条件应用于所有主机或特定类型的主机，例如主节点或配置服务器。

Atlas 会根据集群监控触发某些托管警报，因此会受到粒度变化的影响。要了解更多信息，请参阅监控数据存储粒度。

顾问

Host has index suggestions

如果性能优化顾问有针对主机的索引建议，则引发此警报。

如果主机的查询目标比率大于 8000，并且 Performance Advisor 确定主机可从一个或多个索引中获益来提高低效查询的性能，则会触发此警报，并指导您创建建议的索引。

此警报仅用于 M10+ 集群，并且默认情况下针对启用了性能优化顾问的 M10+ 集群启用。对于禁用了性能优化顾问的集群，不会触发该警报。

断言

以下警报条件衡量从 MongoDB serverStatus 命令的 asserts 文档中收集的 MongoDB 进程的断言速率。您可以通过集群监控来查看断言。

Asserts: Msg is: 如果消息断言率达到指定阈值，则触发该警报。消息断言是内部服务器错误。记录这些的堆栈追踪。

Asserts: Regular is: 如果常规断言率达到指定阈值，则触发该警报。

Asserts: User is: 如果用户产生的错误率达到指定阈值，则触发该警报。

Asserts: Warning is: 如果警告率达到指定阈值，则触发该警报。

自动伸缩 (Auto-Scaling)

您可以为以下集群事件配置警报。查看操作日志查看发生的所有自动伸缩事件。

对于本节中的每个事件，要接收警报，您必须首先配置一个警报，以通知您或您组织的成员此类自动伸缩事件。

要了解 Atlas 如何扩展或缩减集群，请参阅配置自动伸缩。

Auto-scaling: Compute auto-scaling initiated for base tier: 如果 Atlas 为专用集群中的任何操作节点启动计算自动伸缩，则引发此事件。作为此事件的一部分，Atlas 可以扩展磁盘容量。

Auto-scaling: Compute auto-scaling initiated for analytics tier: 如果 Atlas 为专用集群中的任何分析节点启动计算自动伸缩，则引发此事件。作为此事件的一部分，Atlas 可以扩展磁盘容量。

Auto-scaling: Compute auto-scaling down didn't initiate for base tier due to storage requirements: 如果因为目标集群层不支持配置的存储大小，Atlas 无法为专用集群中的任何操作节点启动计算自动伸缩，则会引发此事件。

Auto-scaling: Compute auto-scaling down didn't initiate for analytics tier due to storage requirements: 如果因为目标集群层不支持配置的存储大小，Atlas 无法为专用集群中的任何分析节点启动计算自动伸缩，则会引发此事件。

Auto-scaling: Compute auto-scaling didn't initiate for base tier due to maximum configured cluster tier: 如果因为您的集群已达到为自动伸缩配置的最大集群层，Atlas 无法扩展操作节点，则引发此事件。

Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to maximum configured cluster tier: 如果 Atlas 因您的集群达到为自动伸缩配置的最大集群层而无法扩展分析节点，则引发此事件。

Auto-scaling: Compute auto-scaling didn't initiate for base tier due to insufficient oplog size: 如果 Atlas 因 oplog 容量不足而无法扩展操作节点，则引发此事件。要了解更多信息，请参阅设置最小 Oplog Window。

Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to insufficient oplog size: 如果 Atlas 因 oplog 容量不足而无法扩展分析节点，则引发此事件。要了解更多信息，请参阅设置最小 Oplog Window。

Auto-scaling: Predictive compute auto-scaling initiated for base tier: 如果Atlas为专用集群中的任何操作节点启动预测性计算自动伸缩，则触发该警报。

Auto-scaling: Predictive compute auto-scaling did not initiate for base tier due to maximum configured cluster tier: 如果Atlas由于您的集群达到为自动伸缩配置的最大集群层而无法预测性地扩展运行节点，则触发该警报。

Auto-scaling: Predictive auto-scaling did not initiate for base tier due to insufficient oplog size: 如果Atlas由于oplog大小不足而无法预测性地扩展操作节点，则触发该警报。要学习；了解更多信息，请参阅设置最小 Oplog 窗口。

Auto-scaling: Disk auto-scaling initiated: 如果 Atlas 开始自动伸缩磁盘容量，则触发该警报。

Auto-scaling: Disk auto-scaling didn't initiate due to the cluster reaching maximum available disk size: 如果 Atlas 因集群已达到最大可用磁盘容量而无法扩展磁盘容量，则触发该警报。

Auto-scaling: Disk auto-scaling didn't initiate due to insufficient oplog size: 如果 Atlas 因集群的 oplog 大小不够而无法扩展磁盘大小，则触发该警报。

写入阻塞

以下警报条件适用于 Atlas 中的写入阻塞行为。

Writes have been blocked on your cluster due to critically low disk space

当主节点上的磁盘使用率超过写入阻塞策略阈值时引发警报。Atlas 阻止写入到集群节点，以保持读取可用性。

要解决此警报，请手动或通过启用存储自动伸缩来增加集群的存储容量。如需了解更多信息，请参阅磁盘空间使用百分比警报解决方案。

为防止将来发生写入阻塞事件，我们建议您监控集群的磁盘使用情况。要了解更多信息，请参阅防止写入阻塞。

Writes have been unblocked on your cluster

当主节点上的磁盘使用率低于解除阻塞阈值时引发，Atlas 会自动解除对集群的写入阻塞。

您可以通过 Real-Time Performance Panel Set 查看磁盘指标。这是一个仅供参考的警报，不需要您采取任何操作。不过，为了防止将来发生写入阻塞事件，我们建议您监控集群的磁盘使用情况。要了解更多信息，请参阅防止写入阻塞。

MongoDB Search

以下警报条件用于测量MongoDB搜索进程使用的 CPU 和内存量。您可以通过集群监控查看MongoDB Search指标。

Atlas Search: Index Replication Lag is: 如果 MongoDB Search 从的mongod oplog 复制更改时延迟的大致毫秒数高于或低于阈值，则触发该警报。

Atlas Search: Index Size on Disk is: 如果磁盘上所有MongoDB Search 索引的总大小（以字节为单位）高于或低于阈值，则触发该警报。

Atlas Search: Mongot paused initial sync: 如果初始同步由于磁盘利用率较高而被MongoDB 搜索 mongot 进程中断，则触发该警报。

Atlas Search: Mongot is approaching replication stop threshold: 如果搜索节点上的磁盘使用率大于或等于 85%，则触发该警报。

Atlas Search: Max Number of Fields Indexed is: 如果在副本集或分片上任何单个 MongoDB Search 索引中发现的唯一字段（包括元数据）的最大数量高于或低于指定的字段数（默认为高于 1,000 字段），则会触发。

Atlas Search: Max Number of nGram Fields Indexed is: 如果在副本集或分片上使用 nGram 或 edgeGram 分词器（包括自动补全类型字段和自定义分析器）索引的字段最大数量高于或低于指定的字段数量（默认高于 100 字段），则会触发。

Atlas Search: Max Number of Lucene Docs is: 如果用于存储给定副本集或分片的MongoDB Search 索引的LuceneDocs数量上限高于阈值，则触发该警报。

Atlas Search: Mongot stopped replication: 如果由于磁盘利用率较高而复制被MongoDB 搜索 mongot 进程中断，则触发该警报。

Atlas Search: Number of Error Queries is: 如果MongoDB Search 无法返回响应的查询数量高于或低于阈值，则触发该警报。

Atlas Search: Number of Successful Queries is: 如果MongoDB Search 成功返回响应的查询数量高于或低于阈值，则触发该警报。

Atlas Search: Total Number of Queries is: 如果提交到MongoDB Search 的查询数量高于或低于阈值，则触发该警报。

Atlas Search Opcounter: Delete is: 如果每秒删除的文档或字段（索引定义中指定的）总数高于或低于阈值，则触发该警报。

Atlas Search Opcounter: Getmore is: 如果每秒对所有MongoDB搜索查询运行的getmore 命令总数高于或低于阈值，则触发该警报。

Atlas Search Opcounter: Insert is: 如果MongoDB Search 每秒索引的文档或字段（索引定义中指定的）总数高于或低于阈值，则触发该警报。

Atlas Search Opcounter: Update is: 如果MongoDB Search 每秒更新的文档或字段（索引定义中指定的）总数高于或低于阈值，则触发该警报。

Insufficient disk space to support rebuilding search indexes: 如果集群没有足够的可用磁盘空间来支持MongoDB搜索索引，则触发该警报。

Search Memory: Resident is: 如果MongoDB Search进程占用的常驻内存总字节数高于或低于阈值，则触发该警报。

Search Memory: Shared is: 如果MongoDB Search进程占用的共享内存总字节数高于或低于阈值，则触发该警报。

Search Memory: Virtual is: 如果MongoDB Search进程占用的虚拟内存总字节数高于或低于阈值，则触发该警报。

Search Process: CPU (Kernel) % is: 如果为MongoDB搜索进程提供操作系统调用服务所花费的 CPU 时间百分比高于阈值，则触发该警报。

Search Process: CPU (User) % is: 如果为MongoDB Search进程提供服务所花费的 CPU 时间百分比高于阈值，则触发该警报。

Search Process: Disk space used is: 如果MongoDB Search进程使用的磁盘空间总字节数高于阈值，则触发该警报。
注意
如果将该条件应用于所有主机，则它也适用于专用搜索节点。

Search Process: Ran out of memory: 如果搜索进程 (mongot) 内存不足，则触发该警报。如果搜索进程内存不足，索引和查询将失败。

平均执行时间

以下警报条件测量 MongoDB 进程的读取、写入或命令的平均执行时间（从 MongoDB serverStatus 命令的 opLatencies 文档收集）。您可以通过集群监控来查看断言。

Average Execution Time: Commands is: 命令操作的平均执行时间达到指定的阈值。

Average Execution Time: Reads is: 读取操作的平均执行时间达到指定阈值。

Average Execution Time: Writes is: 写入操作的平均执行时间达到指定的阈值。

磁盘吞吐量

以下警报条件可测量 MongoDB 进程的磁盘读写吞吐量。您可以在 Atlas Disk Throughput 图表上查看这些指标，并可通过集群监控访问该图表。

Disk read throughput is: 如果从磁盘读取数据的速率（以每秒兆字节为单位）达到指定的阈值，则引发警报。

Disk write throughput is: 如果数据写入磁盘的速率（以每秒兆字节为单位）达到指定的阈值，则引发警报。

Opcounter

以下警报条件衡量自上次启动 MongoDB 进程以来该进程的数据库操作速率，这些操作是从 MongoDB serverStatus 命令的 opcounters 文档中收集的。您可以通过集群监控查看 opcounter。

Opcounter: Cmd is: 如果执行命令的速率达到指定阈值，则触发该警报。

Opcounter: Delete is: 如果删除速率达到指定阈值，则触发该警报。

Opcounter: Getmores is: 如果检索下一个游标批处理的 getmore 操作的速率达到指定阈值，则触发该警报。
提示
要了解更多信息，请参阅 MongoDB 手册中的游标批处理。

Opcounter: Insert is: 如果插入速率达到指定阈值，则触发该警报。

Opcounter: Query is: 如果查询速率达到指定阈值，则触发该警报。

Opcounter: Update is: 如果更新速率达到指定阈值，则触发该警报。

Opcounter - Repl

以下警报条件可用于测量对 MongoDB 从节点执行的数据库操作的速率，它们是从 MongoDB serverStatus 命令的 opcountersRepl 文档中收集的。您可以在 Opcounters - Repl 图表上查看这些指标，可通过集群监控访问该图表。

Opcounter: Repl Cmd is: 如果复制命令的速率达到指定阈值，则触发该警报。

Opcounter: Repl Delete is: 如果复制删除操作的速率达到指定阈值，则触发该警报。

Opcounter: Repl Insert is: 如果复制插入的速率达到指定阈值，则触发该警报。

Opcounter: Repl Update is: 如果复制更新的速率达到指定阈值，则触发该警报。

Opcounter: Total is: 如果总操作速率达到指定阈值，则触发该警报。

操作扫描和排序

您可以为 MongoDB 进程的扫描和排序操作设置警报。

Operations: Scan and Order is: 在您指定的查询阈值中，返回排序结果且无法使用索引执行排序操作的查询的平均每秒速率。
注意
如何测量
MongoDB 使用 serverStatus 命令返回的 metrics.operation.scanAndOrder 文档报告复制 oplog 。

Atlas 免费集群

Logical Size is

如果数据和索引的总大小超出指定的阈值，则触发该警报。

仅适用于 Atlas 免费集群

内存

以下条件测量 MongoDB 进程的内存，内存是从 MongoDB serverStatus 命令的 mem 文档收集的。您可以在 Atlas Memory 和 Non-Mapped Virtual Memory 图表上查看这些指标，可通过集群监控访问这些图表。

Memory: Computed is: 如果内存映射未考虑的虚拟内存大小满足指定阈值，则触发该警报。如果该数字非常高（多个 GB），则表明在内存映射之外使用过多内存。
提示
要了解如何使用此指标，请查看 Non-Mapped Virtual Memory 图表并点击图表的 i 图标。

Memory: Resident is: 如果常驻内存的大小达到指定阈值，则触发该警报。随着时间的推移，在专用数据库服务器上，常驻内存的大小通常会接近主机上物理 RAM 的大小。

Memory: Virtual is: 如果 mongod 进程的虚拟内存大小达到指定阈值，则触发该警报。您可以使用此警报来标记内存映射之外的过多内存。
提示
要了解更多信息，请点击 Memory 图表的 i 图标。

System Memory: Available is: 如果可用系统内存下降到指定阈值以下，则触发该警报。

System Memory: Max Available is: 如果可用系统内存最大量低于指定阈值，则触发该警报。

System Memory: Max Used is: 如果最大系统内存使用量达到指定阈值，则触发该警报。

System Memory: Used is: 如果系统内存总用量减去缓冲区容量、缓存容量和可用内存容量后达到指定阈值，则触发该警报。

连接

以下警报条件测量 MongoDB 进程的连接数，该连接数是从 MongoDB serverStatus 命令的 connections 文档收集的。您可以在 Atlas Connections 图表上查看该指标，可通过集群监控访问该图表。

Connections is: 如果主机的活动连接数达到指定的平均值，则触发该警报。

Connections % of configured limit is: 如果主机的打开连接数超过指定百分比，则触发该警报。

Queues

以下警报条件测量从 MongoDB serverStatus 命令的 globalLock 文档收集的等待锁的操作数。您可以在 Atlas Queues 图表上查看这些指标，可通过集群监控访问该图表。

Queues: Readers is: 如果等待读锁的操作数达到指定的平均值，则触发该警报。

Queues: Total is: 如果等待任何类型锁的操作数达到指定的平均值，则触发该警报。

Queues: Writers is: 如果等待写锁的操作数达到指定的平均值，则触发该警报。

页面错误

以下警报条件衡量从 MongoDB serverStatus 命令的 extra_info.page_faults 字段收集的 MongoDB 进程的页面错误率。

Page Faults is: 如果页面错误率（无论是否引发异常）达到指定的阈值，则触发。您可以在 Atlas Page Faults 图表上查看该指标，可通过集群监控访问该图表。

Cursors

以下警报条件测量的是 MongoDB 进程的游标数量，这些游标是从 MongoDB serverStatus 命令的 metrics.cursor 文档中收集的。您可以在 Atlas Cursors 图表上查看这些指标，可通过集群监控访问该图表。

Cursors: Open is: 如果服务器为客户端维护的游标数量达到指定的平均值，则触发该警报。

Cursors: Timed Out is: 如果服务器为客户端维护的超时游标数量达到指定的平均值，则触发该警报。

网络

以下警报条件测量 MongoDB 进程的吞吐量，吞吐量是从 MongoDB serverStatus 命令的 network 文档收集的。您可以在主机的 Network（网络）图表上查看这些指标，可通过集群监控访问该图表。

Network: Bytes In is: 如果发送到 MongoDB 的字节数达到指定阈值，则触发该警报。

Network: Bytes Out is: 如果从 MongoDB 发送的字节数达到指定阈值，则触发该警报。

Network: Num Requests is: 如果发送到 MongoDB 的请求数量达到指定的平均值，则触发该警报。

复制 Oplog

以下警报条件适用于 MongoDB 进程的 oplog。您可以在以下图表上查看这些指标，可通过集群监控访问这些图表：

Oplog GB/Hour
Replication Headroom
Replication Lag
Replication Oplog Window

以下警报条件应用于 oplog：

Oplog Data Per Hour is: 当每小时写入主节点的 oplog 的数据量达到指定阈值，则触发该警报。

Replication Headroom is: 如果同步源节点的 oplog 窗口与从节点上的复制滞后时间差达到指定阈值，则触发该警报。

Replication Lag is: 如果从节点落后主节点的大致时间量达到指定阈值，则触发该警报。Atlas 使用 MongoDB 手册中检查复制滞后所述的方法，计算复制滞后。

Replication Oplog Window is: 如果主节点的复制 oplog 中可用的大致时间满足指定的阈值，则引发此事件。

数据库存储

以下警报条件适用于由 MongoDB dbStats 命令为 MongoDB 进程收集的数据库存储量。有关 Atlas 如何处理达到数据库存储限制的详细信息，请参阅常见问题解答页面。这些条件基于 MongoDB 进程上所有数据库的总和：

注意

Atlas 默认下每 20 分钟检索一次数据库指标，但会在必要时调整频率以减少对数据库性能的影响。

DB Data Size is: 如果所有文档（及其填充）的大致大小达到指定阈值，则触发该警报。

DB Storage is: 如果分配的存储满足指定的阈值，则引发此警报。可以在主机的 DB Storage 图表上查看此警报条件，可通过集群监控访问该图表。

namespaces

以下警报条件适用于MongoDB进程中所有非系统数据库的命名空间总数。您可以通过查看 Catalog集群指标来查看有多少个命名空间用于MongoDB进程。

Total Namespaces is

如果所有非系统数据库中的集合和索引总数达到指定阈值，则触发该警报。

监控此指标以避免超过命名空间限制，这可能会影响数据库性能和操作。有关管理集合和索引的指导，请参阅数据建模简介和减少集合数量。

WiredTiger 存储引擎

以下警报条件用于 MongoDB 进程的 WiredTiger 存储引擎，该进程是从 MongoDB serverStatus 命令的 wiredTiger.cache 和 queues.execution 文档收集的。

您可以在以下图表上查看这些指标，可通过集群监控访问这些图表：

Cache Activity
Cache Usage
Tickets Available
Cache Fill Ratio

以下是适用于 WiredTiger 的警报条件：

Cache: Bytes Read Into Cache is: 当读入 WiredTiger 缓存的字节数达到指定阈值时，则触发该警报。

Cache: Bytes Written From Cache is: 当从 WiredTiger 缓存写入的字节数达到指定阈值时，则触发该警报。

Cache: Dirty Bytes is: 当 WiredTiger 缓存中的脏数据字节数达到指定阈值时，则触发该警报。

Cache: Used Bytes is: 当 WiredTiger 缓存中已使用的字节数达到指定阈值时，则触发该警报。

Cache: Fill Ratio is: 当缓存中的字节数相对于缓存总大小的百分比达到指定阈值时，则触发该警报。

Cache: Dirty Fill Ratio is: 当脏数据字节相对于总缓存大小的百分比达到指定阈值时，则触发该警报。

Tickets Available: Reads is: 如果 WiredTiger 存储引擎可用的读取票证数量达到指定阈值，则触发该警报。

Tickets Available: Writes is: 如果 WiredTiger 存储引擎可用的写入票证数量达到指定阈值，则触发该警报。

对于在 MongoDB 7.0 及更高版本上运行的集群，请勿使用工单数量作为过载警报的指标。从 MongoDB 版本 7.0 开始，Atlas 动态调整工单数量。相反，使用排队的读取器和写入器的数量作为过载指标。

系统和磁盘警报

以下警报条件测量 Atlas 服务器集群的使用情况：

注意

目前， Atlas对数据、索引和日志文件使用单个分区。尽管警报引用各个分区，但它们点相同的指标。

注意

所有硬件指标都有等效的突发报告，具有不同的可配置警报。要了解更多信息，请参阅突发报告。

Disk Queue depth on Data Partition is: 如果向 MongoDB 使用的数据分区发出的请求队列的平均长度超过指定阈值，则触发该警报。

Disk read IOPS on Data Partition is: 如果每秒磁盘读取操作的平均数超过指定阈值，则触发该警报。

Disk read latency on Data Partition is: 如果磁盘读取操作的延迟量超过指定阈值，则触发该警报。

Disk space % used on Data Partition is

在包含 MongoDB 集合数据的任何分区上使用的磁盘空间的百分比。

要查找此警报的可能解决方案，请参阅警报解决方案。

Disk write IOPS on Data Partition is: 如果每秒磁盘写入操作的平均数超过指定阈值，则触发该警报。

Disk write latency on Data Partition is: 如果磁盘写入操作的延迟量超过指定阈值，则触发该警报。

Max disk queue depth on Data Partition is: 如果向 MongoDB 使用的数据分区发出的请求队列的最大平均长度超过指定阈值，则触发该警报。

Max disk read IOPS on Data Partition is: 如果每秒磁盘读取操作的最大平均数超过指定阈值，则触发该警报。

Max disk read latency on Data Partition is: 如果磁盘读取操作的最大延迟量超过指定阈值，则触发该警报。

Max disk space % used on Data Partition is: 如果在包含 MongoDB 集合数据的任何分区上使用的最大磁盘空间百分比超过指定阈值，则触发该警报。

Max disk write IOPS on Data Partition is: 如果每秒磁盘写入操作的最大平均数超过指定阈值，则触发该警报。

Max disk write latency on Data Partition is: 如果磁盘写入操作的最大延迟量超过指定阈值，则触发该警报。

Max System Network In is: 如果发送到 MongoDB 的最大字节数达到指定阈值，则触发该警报。

Max System Network Out is: 如果从 MongoDB 发送的最大字节数达到指定阈值，则触发该警报。

System: CPU (Steal) % is

当 EC2 集群信用余额耗尽时适用。

CPU 使用率超过保证基线 CPU 信用累积率的百分比。CPU 信用是累积的 CPU 利用率单位。信用以恒定速率累积，以提供有保证的性能水平。这些信用可提高 CPU 性能。当信用余额耗尽时，仅提供 CPU 性能的保证基线，超出的量以窃取百分比显示。

注意

Atlas 仅对支持突发性能的 AWS EC2 集群触发此警报。目前，这些为 M10 和 M20 集群类型。

System: CPU (User) % is: 节点上进程的 CPU 使用率，按 CPU 数量进行归一化。该值的范围为 0-100%。

System: Max CPU (Steal) % is: 如果 CPU 占用率超出保证基准 CPU 信用累积率的最大百分比超过指定阈值，则触发该警报。

System: Max CPU (User) % is: 如果节点上进程的最大 CPU 占用率（按 CPU 数量归一化）超过指定阈值，则触发该警报。

System Network In is: 如果 eth0 网络接口每秒接收的物理字节的平均速率达到指定阈值，则触发该警报。

System Network Out is: 如果 eth0 网络接口每秒传输的物理字节的平均速率达到指定阈值，则触发该警报。

重启

Restarts in Last Hour is: 如果主机在前一小时内重启的次数超过指定阈值，则触发该警报。

主机关闭

Host is Down

如果 Atlas 在几分钟内无法到达主机，则触发该警报。

重要

仅当您依赖于从节点读取时才应配置此警报。有关从节点读取的更多信息，请参阅使用预定义副本集标签进行查询和读取偏好。

该警报通常由以下情况触发：

集群出现故障，正在自动修复。
网络问题导致无法访问集群。

MongoDB Atlas 检查停机并非源于您的操作（例如，滚动索引构建）。MongoDB Atlas 如果确认停机不是故意的，则会尝试替换受影响的节点。如果发生故障，只要大多数节点正在运行，Atlas 集群就会保持节点的读取和写入可用性。要了解更多信息，请参阅 MongoDB Atlas 如何提供高可用性？

基于推送的日志导出 (PBLE)

以下警报条件将应用于基于推送的日志导出功能：

Push based log export is unable to push logs on this host: 如果日志导出程序在较长时间内无法发送日志，则会触发。

Push based log export has dropped a log line: 如果日志导出程序删除了一个日志行，则会触发。这可能表明存在一个无法发送的超大日志行。

Swap

以下警报条件用于交换空间使用率：

Swap Usage: Free is: 如果可用交换空间量下降到指定阈值以下，则触发该警报。

Swap Usage: Max Free is: 如果最大可用交换空间量降至指定阈值以下，则触发该警报。

Swap Usage: Max Used is: 如果正在使用的交换空间最大总量达到指定阈值，则触发该警报。

Swap Usage: Used is: 如果正在使用的交换空间总量达到指定阈值，则触发该警报。

Sort

以下警报条件将应用于排序操作：

Sort: Spill to disk during sort is: 如果 $sort 阶段导致写入磁盘的次数达到指定阈值，则会触发该警报。

不适用的主机条件

以下主机条件不会应用于 Atlas。Atlas 在以下情况下不会生成警报：

不在内存中的访问数：总计为
后台刷新平均值为
B-Tree：访问次数为
B-Tree：命中次数为
B-Tree：未命中次数是
B-Tree：失误率为
游标：客户端游标大小为
有效锁 % 为
写锁中的日志记录提交是
日志记录大小 (MB)
日志写入数据文件大小 (MB) 为
内存：已映射内存容量为
引发的页面错误异常：总数为

查询目标警报

以下警报用于集合上的索引。这两种警报都可能表明索引丢失或效率低下。

提示

要了解有关使用索引来提高性能的更多信息，请参阅索引策略。

Query Targeting: Scanned / Returned: 如果扫描的索引键与返回的文档的比率满足或超过指定阈值，则触发该警报。

Query Targeting: Scanned Objects / Returned: 如果扫描的文档与返回的文档的比率达到或超过指定阈值，则触发该警报。

MongoDB搜索进程()mongot 用于保持MongoDB搜索索引更新的变更流游标可以提高查询目标比率，并在该比率较高时触发查询目标警报。

云备份警报

以下警报应用于云备份快照。

Backup restore failed: 恢复失败时触发。

Backup restore succeeded: 恢复成功时触发。

Fallback snapshot failed: 备用快照失败时触发。

Fallback snapshot taken: 在常规备份失败但 Atlas 能够拍摄备用快照时引发此警报。
提示
备用快照

Last snapshot too old: 当距离上次成功快照的时间过长时出现。

Snapshot download request failed: 下载请求失败时触发。

Snapshot schedule fell behind: 在配置的时间段内未获取快照时触发。

Snapshot taken successfully: 成功拍摄快照时触发。

副本集警报

以下警报条件适用于副本集：

Number of elections in last hour is > X: 过去一小时内发生的选举数量超过用户指定的 X 值触发。X 的值是在您创建警报时设置的。此警报可能表明集群的复制未处于健康状态，不断的选举即可证明。

Replica set elected a new primary: 当副本集选举新的主节点时引发此事件。

Replica set has no primary

副本集没有主节点时引发此事件。具体来说，当副本集的所有成员均不具有 PRIMARY 状态时，将引发此事件。例如，当集合中有偶数个投票成员导致平局时，可能会出现这种情况。

如果 Atlas 在选举期间收集数据，该警报可能会发出误报。为防止此类误报，请设置警报配置的 after waiting 时间间隔（在配置的 Send to 部分中）。

要查找此警报的可能解决方案，请参阅警报解决方案。

分片集群警报

以下警报条件适用于分片集群：

Cluster is missing an active mongos: 如果 Atlas 无法联系集群的任何 mongos，则引发该警报。

Flex 警报

以下警报条件适用于 Flex 集群：

Connections is
Connections % of configured limit is
DB Data Size is
Network: Bytes In is
Network: Bytes Out is
Network: Num Requests is
Opcounter: Cmd is
Opcounter: Delete is
Opcounter: Getmores is
Opcounter: Insert is
Opcounter: Query is
Opcounter: Total is
Opcounter: Update is

Flex metric outside threshold

如果满足以下任一条件，则触发该警报：

通往主机的打开连接数超过允许的打开连接总数的 80%。
所有文档（及其填充）和索引的近似大小超过 4 GB。
每秒总操作数超过在 24 小时内 200 次，并且每 6 小时重新发出警报。

App Services 警报

以下警报条件适用于 Atlas App Services。

An overall request rate limit has been hit: 当并发请求数超过限制时触发。此警报表明应用程序可能发出异常大量的请求。

Auth Login Fail is: 如果每秒客户端登录请求失败数达到指定阈值，则触发该警报。

Endpoints Compute Time is: 如果每秒 HTTPS 端点计算时间达到指定阈值，则触发该警报。

Endpoints Egress Bytes is: 如果每秒 HTTPS 端点数据出口字节数达到指定阈值，则。

Failed Requests - Endpoints is: 如果每秒失败的 HTTPS 端点请求数达到指定阈值，则触发该警报。

Failed Requests - GraphQL is: 如果每秒失败的 GraphQL 请求数量达到指定阈值，则触发该警报。（GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息，请参阅 Atlas App Services 文档。

Failed Requests - Overall is: 如果每秒失败的请求总数达到指定阈值，则触发该警报。

Failed Requests - SDK (Functions) is: 如果每秒失败的 SDK 函数请求数达到指定阈值，则触发该警报。

Failed Requests - Sync is: 如果每秒失败的 Atlas Device Sync 请求数达到指定阈值，则触发该警报。

Failed Requests - Triggers is: 如果每秒失败的 Trigger 请求数量达到指定阈值，则触发该警报。

GraphQL Compute Time is: 如果每秒 GraphQL 计算时间达到指定阈值，则触发该警报。（GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息，请参阅 Atlas App Services 文档。

GraphQL Egress Bytes is: 如果 GraphQL 每秒数据传出字节数达到指定阈值，则引发警报。（GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息，请参阅 Atlas App Services 文档。

GraphQL Request Duration P95 is: 如果 GraphQL 请求的持续时间（以毫秒为单位）的第 95 个百分位数达到指定阈值，则触发该警报。（GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息，请参阅 Atlas App Services 文档）。

HTTP Endpoint Request Duration P95 is: 如果 HTTPS 端点请求的持续时间（毫秒）的第 95 百分位达到指定阈值，则触发该警报。

MQL Request Duration P95 is: 如果 MQL 请求的持续时间（以毫秒为单位）的第 95 个百分位达到指定的阈值，则触发该警报。

Overall Compute Time is: 如果每秒总计算时间达到指定阈值，则触发该警报。

Overall Egress Bytes is: 如果每秒总数据出口节数达到指定阈值，则触发该警报。

SDK Functions Compute Time is: 如果每秒 SDK 函数计算时间达到指定阈值，则触发该警报。

SDK Functions Egress Bytes is: 如果每秒 SDK 函数数据出口字节数达到指定阈值，则触发该警报。

SDK Functions Request Duration P95 is: 如果 SDK 函数请求的持续时间（毫秒）的第 95 百分位达到指定阈值，则触发该警报。

SDK MQL Compute Time is: 如果每秒 SDK MQL 计算时间达到指定阈值，则触发该警报。

SDK MQL Egress Bytes is: 如果每秒 SDK MQL 数据出口字节数达到指定阈值，则触发该警报。

Session Ended - Sync is: 如果 Atlas Device Sync 期间每秒结束的会话数达到指定阈值，则触发该警报。

Sync Client Bootstrap Time is: 如果 Atlas Device Sync 客户端的引导时间的第 95 个百分位数达到指定阈值，则触发该警报。

Sync Client Uploads that failed is: 如果 Atlas Device Sync 客户端上每秒失败的上传次数达到指定阈值，则触发该警报。

Sync Client Uploads that are invalid: 如果 Atlas Device Sync 客户端上每秒的无效上传次数达到指定阈值，则触发该警报。

Sync Current Oplog Lag Sum is: 如果 Atlas Device Sync 滞后 MongoDB oplog 的大致时间长度达到指定阈值，则触发该警报。

Sync Egress Bytes is: 如果每秒 Atlas Device Sync 数据出口字节数达到指定阈值，则触发该警报。

Sync Num Unsyncable Docs % is: 如果 App Services 无法同步的文档数量达到指定阈值，则触发该警报。

Triggers Compute Time is: 如果每秒 Triggers 计算时间达到指定阈值，则触发该警报。

Triggers Current Oplog Lag Sum is: 如果 App Services Tiggers 滞后 MongoDB oplog 的大致时间长度达到指定阈值，则触发该警报。

Triggers Egress Bytes is: 如果每秒 Tiggers 数据出口字节数达到指定阈值，则触发该警报。

Triggers Request Duration P95 is: 如果 Tiggers 持续时间（以毫秒为单位）的第 95 个百分位数达到指定阈值，则触发该警报。

用户警报

以下警报条件适用于 Atlas 用户。

Organization users do not have multi-factor authentication enabled: 当组织中的一个或多个用户未启用多因素身份验证时触发。

User had their role changed: 在 Atlas 用户的项目或组织角色发生变化时引发此警报。

User joined the organization: 当新用户加入 Atlas 组织时引发此警报。

User joined the project: 当新用户加入 Atlas 项目时触发。

User left the organization: 当用户离开 Atlas 组织时引发此警报。

User left the project: 当用户离开 Atlas 项目时引发此警报。

项目警报

以下警报条件适用于 Atlas 项目。

Security checkup alerts updated: 如果更新了项目或组织的安全检查警报，则触发该警报。

Encryption at Rest KMS network access denied: 如果Atlas中的项目无法连接到密钥管理提供商，则触发该警报。在这种情况下， Atlas不会关闭您的进程。所有新项目都会自动运行此警报，以传达任何KMS网络访问权限故障。要学习；了解更多信息，请参阅使用KMS启用静态加密。

Tag(s) were added or modified on project: 如果您或您的团队添加或更改了项目标签，则触发该警报。

Users do not have multi-factor authentication enabled: 如果项目或组织中的用户尚未设置多因素身份验证，则触发该警报。

账单警报

以下警报条件用于 Atlas 账单。您可以通过 Atlas 用户界面配置组织级或项目级账单提醒。

要配置组织级别的警报：

在Atlas中，转到 Organization Alerts 页面。

如果尚未显示，请从导航栏的 Organizations 菜单中选择所需的组织。
单击导航栏中的 Alerts 图标。
单击 Organization 标题下的 Alerts。

将显示组织警报页面。

配置警报。

要配置项目级别警报，请执行以下操作：

在Atlas中，转到 Project Alerts 页面。

如果尚未显示，请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示，请从导航栏的Projects菜单中选择所需的项目。
单击导航栏中的 Alerts 图标。
单击 Project 标题下的 Alerts。

将显示项目警报页面。

配置警报。

注意

所有账单金额均以美元为单位。

Amount billed ($) yesterday is above the threshold

如果组织或项目的最近每日账单金额超过配置的阈值，则触发。Atlas 在计算账单金额时，不考虑前一天的任何贷项。

此条件适用于组织和项目。

Credit card is about to expire

如果绑定的信用卡即将过期，则触发该警报。在信用卡到期的月初触发该警报。Atlas 在首次添加信用卡时启用该警报。

此条件适用于组织和项目。

Current bill ($) for any single project is above the threshold

如果组织内任何项目的月度总额超过您为所有项目配置的阈值，则会触发该警报。当前待处理的发票关闭时，此警报将重置。

此警报条件仅适用于组织。

Current bill ($) for the organization is above the threshold

如果组织的月度总额超过您配置的阈值，则触发该警报。当前待处理的发票关闭时，此警报将重置。

此警报条件仅适用于组织。

服务帐户警报

以下警报条件应用于Atlas服务帐户。您可以在组织级别从Atlas用户界面配置这些警报。

Service Account Secrets are about to expire

如果任何服务帐户的密钥在 7 天内过期，或者在配置此警报时指定的天数内过期，则触发该警报。当所有过期密钥均已删除或已过期时，此警报将重置。

此警报条件仅适用于组织。

Service Account Secrets have expired

如果任何服务帐户的密钥已过期，则触发该警报。要生成新密钥，请参阅更新对组织的编程访问权限。删除所有过期密钥后，此警报将重置。

此警报条件仅适用于组织。

联合警报

Organization's IdP certificate is about to expire: 如果与您拥有 Organization Owner 角色的组织关联的 IdP 证书在 14 天内过期，则引发此警报。Atlas 每天都会发送此警报，直到您确认为止。
注意
当您将组织映射到 IdP 提供商时，Atlas 会自动创建此警报。如果您删除该映射，Atlas 将删除此警报的所有实例。

静态加密警报

以下警报条件适用于使用客户密钥管理的静态加密的项目。

AWS encryption key elapsed time since last rotation is above (n) days

如果 Atlas 项目使用的 AWS 客户主密钥 (CMK) 的活动天数超过配置的天数（默认为 90 天），则会引发此警报。

要修改警报阈值，请执行以下操作：

在 Atlas 中，前往 Project Alerts 页面。
1. 如果尚未显示，请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
2. 如果尚未显示，请从导航栏的Projects菜单中选择所需的项目。
3. 单击导航栏中的 Alerts 图标。
4. 单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings（“下载”图标）。

如果您将默认 90天alert 配置为大于Amazon Web ServicesAmazon Web ServicesKMS KMSAtlas Amazon Web Services集合扫描轮换，则Atlas不会创建警报，因为Amazon Web Services会自动轮换您的集合扫描。

如果您轮换项目 CMK，此警报将自动重置。有关如何轮换项目 CMK 的文档，请参阅轮换 AWS 客户主密钥。

Azure encryption key elapsed time since last rotation is above (n) days

如果 Atlas 项目使用的 Azure Key Vault 密钥标识符的活动时间超过配置的天数（默认为 90 天），则触发该警报。

要修改警报阈值，请执行以下操作：

在 Atlas 中，前往 Project Alerts 页面。
1. 如果尚未显示，请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
2. 如果尚未显示，请从导航栏的Projects菜单中选择所需的项目。
3. 单击导航栏中的 Alerts 图标。
4. 单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings（“下载”图标）。

如果轮换项目密钥标识符，此警报则会自动重置。有关如何轮换项目密钥标识符的文档，请参阅关于轮换 Azure 密钥标识符。

GCP encryption key elapsed time since last rotation is above (n) days

如果 Atlas 项目使用的 GCP 密钥版本资源 ID 的活动天数超过配置的天数（默认为 90 天），则触发该警报。

要修改警报阈值，请执行以下操作：

在 Atlas 中，前往 Project Alerts 页面。
1. 如果尚未显示，请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
2. 如果尚未显示，请从导航栏的Projects菜单中选择所需的项目。
3. 单击导航栏中的 Alerts 图标。
4. 单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings（“下载”图标）。

如果您轮换项目密钥版本资源 ID，则此警报会自动重置。

要了解如何轮换项目密钥版本资源 ID，请参阅轮换 GCP 密钥版本资源 ID。

Encryption at Rest KMS network access denied

如果您的云提供商的KMS凭证由于网络访问权限限制而无效，则触发该警报。所有新项目都会自动运行此警报，以传达任何KMS网络访问权限故障。

要修改或删除该警报，请执行以下操作：

在 Atlas 中，前往 Project Alerts 页面。
1. 如果尚未显示，请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
2. 如果尚未显示，请从导航栏的Projects菜单中选择所需的项目。
3. 单击导航栏中的 Alerts 图标。
4. 单击 Project 标题下的 Alerts。
将显示项目警报页面。
单击 Alert Settings（“下载”图标）。

所有新项目均默认启用此警报。

维护窗口警报

以下警报条件适用于已配置维护窗口的项目。

注意

只有当项目具有有效的维护时段时，您才能配置维护窗口警报。

Maintenance is scheduled: 在项目计划维护前 72 小时引发该警报。

Maintenance no longer needed: 如果项目不再需要计划维护，则触发该警报。

Maintenance started: 在开始维护项目时触发。

Maintenance has been auto-deferred: 如果维护被推迟，将会触发该警报。

MongoDB 支持访问授权警报

Granted additional access to MongoDB support: 当 MongoDB 支持人员拥有基础架构访问权限时触发。您可以查看访问权限授权类型和授权事件的到期日期。

Revoked additional access from MongoDB support: 当 MongoDB 支持人员不再具有基础架构访问权限时触发。您可以查看访问权限授权类型。

Atlas Stream Processing 警报

以下警报条件适用于运行 Stream Processing 工作区的项目。

Stream Processor State is failed: 如果目标流处理器以失败状态退出，则触发该警报。
注意
如果您使用 Operator（其中包含 is、contains 等匹配器表达式）来更改已配置的“流处理器状态为失败”警报的对应流处理器的名称，且匹配器表达式与新名称不匹配，Atlas 则不会为重命名后的流处理器触发警报。要监控重命名后的流处理器，请重新配置该警报。

Stream Processor source change stream lag is: 如果变更流源上的事件与目标流处理器上的事件摄取时间之间的滞后时间高于或低于阈值，则会引发警报。

Stream Processor DLQ message count is: 如果目标流处理器向死信队列 (DLQ) 写入的每秒消息速率高于或低于阈值，则会引发警报。

Stream Processor source Kafka offset lag is: 如果 Kafka 源上的偏移延迟总计高于或低于阈值，则会引发警报。

Stream processor output message count is: 如果目标流通过其 $emit 或 $merge 阶段输出的每秒消息速率高于或低于阈值，则触发该警报。

后退

警报基础知识

来年

配置警报设置

注意

主机警报

顾问

断言

自动伸缩 (Auto-Scaling)

写入阻塞

MongoDB Search

注意

平均执行时间

磁盘吞吐量

Opcounter

提示

Opcounter - Repl

操作扫描和排序

注意

如何测量

Atlas 免费集群

内存

提示

提示

连接

Queues

页面错误

Cursors

网络

复制 Oplog

数据库存储

注意

namespaces

WiredTiger 存储引擎

系统和磁盘警报

注意

注意

注意

重启

主机关闭

重要

基于推送的日志导出 (PBLE)

Swap

Sort

不适用的主机条件

查询目标警报

提示

云备份警报

提示

副本集警报

分片集群警报

Flex 警报

App Services 警报

用户警报

项目警报

账单警报

在Atlas中，转到 Organization Alerts 页面。

配置警报。

在Atlas中，转到 Project Alerts 页面。

配置警报。

注意

服务帐户警报

联合警报

注意

静态加密警报

维护窗口警报

注意

MongoDB 支持访问授权警报

Atlas Stream Processing 警报

注意