常见问题解答：适用于自管理部署的 MongoDB 存储

本文档用于解答有关 MongoDB 存储系统的常见问题。

存储引擎基础知识

什么是存储引擎？

存储引擎是数据库的一部分，它负责管理数据在内存和磁盘上的存储方式。很多数据库支持多种存储引擎，而不同的引擎可为特定工作负载提供更好的性能。例如，一种存储引擎可能会为读取密集型工作负载提供更好的性能，另一种存储引擎则可能为写入操作提供更高的吞吐量。

提示

用于自管理部署的存储引擎

是否可以在副本集中混合使用存储引擎？

是的。您可以拥有使用不同存储引擎（WiredTiger 和内存型）的副本集节点。

存储建议

一个集群中可以有多少个集合和索引？

一旦集合和索引的总数超过 100,000，集群性能可能会下降。此外，大量大型集合对性能的影响要比相同数量小型集合对性能产生的影响更大。

WiredTiger 存储引擎

我是否可以将现有部署升级到 WiredTiger？

是的，可以。请参阅：

WiredTiger 提供多少压缩？

压缩率取决于数据和使用的压缩库。默认情况下，WiredTiger 中的集合数据使用 Snappy 区块压缩；zlib 和 zstd 压缩也可用。索引数据默认使用前缀压缩。

我应该将 WiredTiger 内部缓存设为多大？

借助 WiredTiger，MongoDB 可同时利用 WiredTiger 内部缓存和文件系统缓存。

缓存配置设置

默认 WiredTiger 内部缓存大小为以下两者中的较大者：

50% 的 (RAM - 1 GB)，或
0.256 GB.

示例，在总RAM为 4 GB的系统上， WiredTiger缓存使用 1.5 GB RAM (0.5 * (4GB - 1GB) = 1.5 GB)。提供特定缓存大小时，请确保RAM不超过 0.256 GB到 10000 GB的范围。

避免将WiredTiger内部缓存大小增加到超过其默认值。如果您的案例需要这样做，您可以使用 --wiredTigerCacheSizePct 来考虑垂直方向导致的内存变化。您必须指定最大为可用内存的 80% 的百分比。计算值的范围可以从 0.256 GB到 10000 GB。示例，在RAM为 2 GB的系统上，--wiredTigerCacheSizePct 无法设立为 10，因为 10% of 2 GB是 0。2GB，小于 0.256 GB。

注意

在某些实例中，例如在配置为使用的RAM小于为托管预配的内存量的容器中运行时，您必须考虑这些限制。您可能需要将WiredTiger缓存配置为适当的值，因为在某些情况下， WiredTiger可能不考虑特定容器的内存限制。

要查看 memory limit，WiredTiger用作最大可用RAM量的值，请使用 hostInfo 命令。

默认情况下，WiredTiger 对所有集合使用 Snappy 区块压缩，对所有索引使用前缀压缩。压缩默认值可以在全局级别进行配置，也可以在集合和索引创建期间针对每个集合和每个索引进行设置。

WiredTiger 内部缓存和磁盘格式中的数据使用不同的表示形式：

文件系统缓存中的数据与磁盘上的数据格式相同，并且同样拥有数据文件压缩带来的好处。操作系统使用文件系统缓存来减少磁盘 I/O。
WiredTiger 内部缓存中加载的索引具有与磁盘上格式不同的数据表示形式，但仍可利用索引前缀压缩来减少 RAM 使用量。索引前缀压缩会对被索引字段中的常用前缀去重。
WiredTiger 内部缓存中的集合数据未压缩，并使用与磁盘上格式不同的表示形式。区块压缩可大幅节省磁盘上存储空间，但数据必须解压缩才能由服务器操作。

借助文件系统缓存，MongoDB 会自动使用 WiredTiger 缓存或其他进程未使用的所有空闲内存。

要调整WiredTiger内部缓存的大小，请参阅 --wiredTigerCacheSizeGB 和 storage.wiredTiger.engineConfig.cacheSizeGB。避免将WiredTiger内部缓存大小增加到超过其默认值。如果您的使用案例需要增加内部缓存大小，请参阅 --wiredTigerCacheSizePct 和 storage.wiredTiger.engineConfig.cacheSizePct。

注意

storage.wiredTiger.engineConfig.cacheSizeGB 限制了 WiredTiger 内部缓存的大小。操作系统使用可用的空闲内存进行文件系统缓存，这允许压缩的 MongoDB 数据文件保留在内存中。此外，操作系统使用任何空闲 RAM 来缓冲文件系统块和文件系统缓存。

为了容纳额外的 RAM 用户，您可能必须减少 WiredTiger 的内部缓存大小。

默认WiredTiger内部缓存大小值假定每台计算机有一个mongod实例。如果一台计算机包含多个MongoDB实例，请减少该设置以容纳其他 mongod 实例。

mongod如果在容器（示例lxc 、cgroups 、 Docker等）中运行，而该容器无法访问权限系统中的所有可用RAM ，则必须设立storage.wiredTiger.engineConfig.cacheSizeGB 或storage.wiredTiger.engineConfig.cacheSizePct 为一个小于容器中可用RAM数量的值。确切的数量取决于容器中运行的其他进程。请参阅memLimitMB。

您只能提供 storage.wiredTiger.engineConfig.cacheSizeGB 或 storage.wiredTiger.engineConfig.cacheSizePct 之一。

要查看有关缓存和驱逐率的统计信息，请参阅 serverStatus 命令返回的 wiredTiger.cache 字段。

MongoDB 为每个连接分配多少内存？

每个连接最多使用 1 MB RAM。

要优化连接的内存使用，请确保：

监控部署的打开连接数。打开的连接数过多会导致 RAM 过度使用，进而减少工作集的可用内存。
当不再需要它们时，关闭连接池。连接池是由驱动程序维护的、开放且随时可用的数据库连接的缓存。关闭不需要的连接池可以释放更多内存资源。
管理连接池的大小。maxPoolSize 连接字符串选项指定池中打开的最大连接数。默认情况下，池中最多可有 100 个打开的连接。降低 maxPoolSize 会减少用于连接的最大 RAM 量。
提示
要配置连接池，请参阅连接池配置设置。

WiredTiger 向磁盘写入的频率是多少？

检查点

MongoDB 配置 WiredTiger 创建检查点，具体而言，就是以 60 秒的间隔将快照数据写入磁盘。

Journal Data

当满足以下任一条件时，WiredTiger 会将缓冲的日志记录同步到磁盘：

对于副本集成员（主节点和从节点成员）：
- 如果写入操作包含或暗示 j: true 的写关注。
- 此外，对于从节点，在每次批量应用 oplog 条目之后进行。
注意
如果 writeConcernMajorityJournalDefault 为真，则写关注 "majority" 暗示为 j: true。
每 100 毫秒一次（请参阅 storage.journal.commitIntervalMs）。
当 WiredTiger 创建新的日志文件时。由于 MongoDB 使用上限 100 MB 的日志文件，所以 WiredTiger 大约每 100 MB 数据创建一份新日志文件。

如何在 WiredTiger 中回收磁盘空间？

WiredTiger 存储引擎在删除文档时会在数据文件中维护空记录列表。此空间可被 WiredTiger 重用，但不会返回给操作系统（特殊情况除外）。

可供 WiredTiger 重用的空闲空间量反映在 wiredTiger.block-manager.file bytes available for reuse 下的 db.collection.stats() 输出中。

要允许 WiredTiger 存储引擎将此空闲空间释放给操作系统，可以对数据文件进行碎片整理。这可以通过重新同步副本集节点或使用 compact 命令来实现。

数据存储诊断

如何查看集合的大小？

要查看集合的统计信息（包括数据大小），请使用 mongosh 中的 db.collection.stats() 方法。以下示例为 orders 集合发出 db.collection.stats()：

db.orders.stats();

MongoDB 还提供以下方法返回集合的特定大小信息：

db.collection.dataSize() 可返回集合的未压缩数据大小（以字节为单位）。
db.collection.storageSize() 以返回磁盘存储器上集合的大小（以字节为单位）。如果对集合数据进行压缩（即 default for WiredTiger），存储大小则会反映压缩后的大小，且可能小于 db.collection.dataSize() 返回的值。
db.collection.totalIndexSize() 可返回集合的索引大小（以字节为单位）。如果索引使用前缀压缩（即 default for WiredTiger），则返回的大小将反映压缩后的大小。

以下脚本会输出每个数据库的统计信息：

db.adminCommand("listDatabases").databases.forEach(function (d) {
   mdb = db.getSiblingDB(d.name);
   printjson(mdb.stats());
})

以下脚本会打印出每个数据库中每个集合的统计信息：

db.adminCommand("listDatabases").databases.forEach(function (d) {
   mdb = db.getSiblingDB(d.name);
   mdb.getCollectionNames().forEach(function(c) {
      s = mdb[c].stats();
      printjson(s);
   })
})

如何检查集合中单个索引的大小？

要查看为每个索引分配的数据大小，使用 db.collection.stats() 方法并检查返回文档中的 indexSizes 字段。

如果索引使用前缀压缩（即 default for WiredTiger），针对该索引返回的大小将反映压缩后的大小。

如何获取数据库存储使用情况的相关信息？

mongosh 中的 db.stats() 方法会返回“活动”数据库的当前状态。有关返回字段的说明，请参阅 dbStats 输出。

后退

管理日志记录

来年