性能系列最佳实践-数据建模

MongoDB
November 28, 2023 | Updated: December 25, 2025

这个系列适用于谁？

虽然我们将要介绍的最佳实践并非面面俱到，但在本系列中会有一些建议对您很有用，无论您是：

刚开始您的第一个项目还是经验丰富的MongoDB开发人员。
在使用全托管云数据库MongoDB 服务，或自建MongoDB。

我们在本文中要涵盖什么内容？

我们将从两个关键考虑因素开始，这将为我们在接下来的博客系列中讨论的所有性能最佳实践奠定基础。首先，我们将讨论模式设计以及为您启动的关键资源，然后转向为您的应用程序中最常访问的数据和索引调整RAM大小。这就是我们所称的“工作集”。

数据建模至关重要

性能优化的第一步是了解应用程序的查询模式，从而设计数据模型并相应地选择适当的索引。根据应用程序的查询模式调整数据模型可以生成更高效的查询，增加插入和更新操作的吞吐量，并更有效地在分片集群中分配工作负载。

虽然MongoDB具有灵活的模式，但这并不意味着您可以忽视模式设计！虽然您随时可以修改模式，但在项目初期遵循模式设计的最佳实践将有助于避免未来的潜在重构工作。

JSON文档的一个主要优势是您可以根据应用程序的需要灵活地数据建模。数组和子文档的嵌套使得文档能够很好地表达数据之间的复杂关系。但您还可以将数据建模为平面、表格和列式结构，或者简单的键值对、文本、地理空间和时间序列数据，甚至是连接图数据结构的节点和边缘。最佳的模式设计将由您的应用程序查询模式来确定。

数据建模的关键考虑因素和资源

在设计数据模型时，您需要首先做出的决策之一是如何对数据之间的关系进行建模。决定何时在单个文档内嵌入一个文档，或者在不同集合中的单独文档之间创建引用，是一个应用程序特定的考虑。然而，在模式设计过程中，有一些通用的考虑因素可以指导这个决策。

嵌入

具有1:1关系的数据显然是单个文档内嵌入的明显和自然的选择。具有一对多关系的数据，其中“多”个对象始终与其父文档一起出现或在其上下文中查看，也最适合通过嵌入来处理。因为这些数据总是一起访问，将其一起存储在同一文档中是最优的。

由于数据的本地性，嵌入通常在读取操作方面提供更好的性能，因为可以通过单个内部数据库操作请求和检索相关数据，而不是查找存储在不同集合中的文档。嵌入数据模型还使得在单个原子写操作中更新相关数据成为可能，因为单个文档写入是事务性的。

然而，并不是所有的1:1和一对多关系都适合嵌入到单个文档中。在以下情况下应该在不同集合的文档之间使用引用：

经常读取一个文档，但包含的数据很少被访问。将这些数据嵌入只会增加集合的内存需求（工作集）。
文档的某个部分经常被更新，并且大小不断增长，而文档的其余部分相对静态。
组合文档大小会超过MongoDB的16MB文档限制，例如在建模多对一关系时，如产品评论与产品之间的关系。

引用

引用可以帮助解决上述提到的挑战，并且通常在建模多对多关系时使用。然而，应用程序需要发出后续查询来解析引用，需要额外的往返服务器通信，或者需要使用MongoDB的‘$lookup’聚合管道阶段执行“连接”操作。

深入挖掘

数据建模是一个广泛的主题，并且已经填补了以前的博客系列。为了帮助您做出正确的决策，以下是您应该审查的关键资源摘要：

MongoDB文档提供了关于数据建模的广泛部分，从文档数据模型的高级概念开始，然后逐渐进展到实际示例和设计模式，包括有关引用和嵌入的更多详细信息。
您还应该查阅我们的“使用模式构建”博客系列，以了解有关不同用例的特定模式设计最佳实践，包括目录和内容管理、物联网、移动应用、分析和单一视图（即客户360）。它将这些用例与特定的模式设计模式进行叠加，如版本控制、分桶、引用和图形。
MongoDB大学提供了一个免费的基于Web的数据建模培训课程。这是一个了解文档数据模型中模式设计的学习的好方法。

审查您的数据模型

一旦您开发了初始数据模型并开始填充样本应用程序数据，有能力对其进行审查将会很有帮助。

MongoDB Compass是MongoDB的免费GUI工具。您可以在Compass上做很多事情，所以在这个博客系列中我们会经常回到这个工具。其中最有用的功能之一是模式可视化，使您能够使用直方图探索您的模式，显示文档字段、数据类型和值。正如您将在系列后面看到的那样，您还可以直接从Compass UI可视化查询解释计划和索引覆盖范围。

在图1中，我们正在审查存储在"restaurants"集合中的文档模式。对于采样的文档，Compass显示字段在每个文档中出现的频率，它们包含的值的范围以及数据类型，以及"categories"数组中的元素数量。Compass文档中详细介绍了如何分析您的模式。

开始使用文档

探索和实验数据建模的最佳方法是在完全托管的阿里云云服务上启动MongoDB。

我们的文档将指导您如何在您选择的地区和云提供商上创建一个免费的MongoDB数据库集群。您还可以加载我们的示例数据集，以便轻松入门文档。

内存大小：确保您的工作集适合内存

除了数据建模之外，性能优化的第二个主要考虑因素是调整您的工作集大小。

与大多数数据库一样，当应用程序的工作集（索引和最常访问的数据）适合内存时，MongoDB的性能最佳。RAM大小是实例大小的最重要因素；如果内存不足，其他优化可能无法显著提高数据库的性能。如果性能与价格/性能之间存在权衡，那么使用快速的SSD来补充较小的RAM量是一种可行的设计选择。您应该测试以找到适合您工作负载和SLA的最佳平衡。

当应用程序的工作集适合内存时，从磁盘读取的活动将会很低。您可以使用我们将在查询分析博客文章中介绍的工具来分析这一点，这是本系列的下一步内容。

如果您的工作集超过所选实例大小或服务器的RAM，请考虑迁移到具有更多内存的实例，或者将数据库分区（分片）到多个服务器上。

无论您是使用云托管MongoDB还是自己管理MongoDB，正确调整工作集大小都是必要的。

如您使用阿里云，请查阅阿里云MongoDB 官方文档，以获取有关计算工作集大小的指导。
在本系列后面，我们将更深入地探讨自建的MongoDB硬件大小调整问题。

在阿里云MongoDB 中，扩展计算和存储非常简单。您可以选择进入集群层自动缩放，以响应应用程序需求的变化来调整计算容量。

在阿里云MongoDB中，集群层自动缩放会在定义的时间段内监控CPU和内存利用率，并在您配置的限制内调整实例大小。所有缩放事件都是以滚动方式执行的，因此不会对您的应用程序产生影响。撰写本文时，自动缩放是一个测试功能。如果您想要自己控制缩放事件，那么您可以在阿里云MongoDB 控制台中只需点击几下鼠标，或通过API调用来实现。

← Previous

MongoDB性能系列最佳实践-索引

MongoDB中的索引在任何数据库中，可以用索引支持高效执行查询。如果没有索引，数据库必须扫描集合或表中的每个文档，才能选择与查询语句匹配的文档。如果查询存在适当的索引，数据库可以使用索引来限制必须检查的文档数量，从而提升查询效率。索引的使用可以大大减少查询所需的时间和资源，让数据库能更快速地找到所需数据。因此，在设计数据库时，充分考虑并优化索引的使用，是提升数据库性能的关键一步。 MongoDB提供了丰富的索引类型和功能，并具有针对语言的排序顺序，以支持对数据的复杂访问模式。MongoDB索引可以根据应用程序的需求和查询模式随时创建和删除，并且可以声明在文档中的任何字段上，包括嵌套在数组中的字段。这些灵活的索引功能使得在MongoDB中进行高效的数据访问变得更加简单和便捷。无论是针对特定的字段还是针对文档中的嵌套字段，都可以根据实际需求来创建索引，以提升查询性能和响应时间。通过合理设计和使用索引，可以最大限度地优化MongoDB的性能，提供更好的数据访问体验。因此，让我们讨论如何在MongoDB中最好地使用索引。使用复合索引复合索引是由几个不同字段组成的索引。例如，如果您对“姓氏”和“名字”都进行查询，通常最高效的做法是创建包含“姓氏”和“名字”的索引。这样的复合索引不仅可以高效地处理同时指定“姓氏”和“名字”的查询，还可以用于过滤只指定“姓氏”的查询。遵循ESR规则在设计复合索引时，有一个经验法则有助于确定字段的顺序：根据查询的频率和选择性，将最常用且选择性高的字段放在索引的前面。这样做可以使索引更有效地过滤数据，提高查询的性能：在设计复合索引时，以下经验法则可以帮助您确定字段的顺序：首先，将用于执行等值查询的字段添加到索引中。这些字段通常是经常用于查询条件的字段，例如进行精确匹配的字段。接下来，考虑对查询结果进行排序的字段。将这些字段添加到索引中，可以使查询在排序时更加高效。最后，将需要访问的数据范围的字段添加到索引中。这些字段可以帮助缩小索引的范围，提高查询性能。通过遵循这个经验法则，您可以设计出更优化的复合索引，以适应不同的查询模式和需求。根据具体情况，按照等值查询字段、排序字段和数据范围字段的顺序，灵活地确定索引字段的排列，以提供更好的查询性能和响应时间。在可能的情况下，请尽量使用覆盖查询（Covered Queries）。覆盖查询可以直接从索引中返回结果，而无需访问源文档，因此非常高效。要确定查询是否是覆盖查询，可以使用explain()方法。如果explain()的输出显示totalDocsExamined为0，说明查询是由索引覆盖的。在尝试实现覆盖查询时，有一个常见的陷阱是_id字段默认始终返回。您需要明确地将其从查询结果中排除，或者将其添加到索引中。在分片集群中，MongoDB内部需要访问分片键的字段。因此，只有在分片键是索引的一部分时，覆盖查询才可行。通常最好将分片键作为索引的一部分。在考虑低基数字段上的索引时要小心对具有少量唯一值（低基数）的字段进行查询可能会返回大的结果集。复合索引可能包含具有低基数的字段，但合并字段的值应该具有高基数。消除不必要的索引索引是资源密集型的：即使在MongoDB的WiredTiger存储引擎中使用压缩，它们也会消耗RAM和磁盘。此外，随着字段的更新，相关的索引也必须进行维护，这会增加额外的CPU和磁盘I/O负载。因此，我们应该谨慎评估和删除不再需要的索引。 MongoDB 还提供了工具来帮助您了解索引使用情况：通配符索引不能替代基于工作负载的索引规划对于具有许多临时查询模式或处理高度多态文档结构的工作负载，通配符索引提供了额外的灵活性。您可以定义一个过滤器，自动为集合中的所有匹配字段、子文档和数组创建索引。与任何索引一样，它们也需要存储和维护，因此它们会给数据库增加开销。如果您的应用程序的查询模式事先已知，那么应该使用更有选择性的索引来处理查询访问的特定字段。使用文本搜索来匹配字段中的单词常规索引用于匹配字段的整个值。如果您只想在包含大量文本的字段中匹配特定单词，则应使用文本索引。如果您在Atlas服务中运行MongoDB，请考虑使用Atlas全文搜索，它提供了一个与MongoDB数据库集成的完全托管的Lucene索引。全文搜索提供更高的性能和更大的灵活性，用于对数据库进行过滤、排序和排序，以快速呈现与用户最相关的结果。使用部分索引通过仅包含将通过索引访问的文档来减小索引的大小和性能开销。例如，在orderID字段上创建部分索引，只包括orderStatus为“正在进行中”的订单文档，或者仅在文档中存在emailAddress字段时创建索引。利用多键索引查询数组如果您的查询模式需要访问单个数组元素，请使用多键索引。MongoDB会为数组中的每个元素创建一个索引键，并且可以构建在持有标量值和嵌套文档的数组上。避免未以左锚定或根据的正则表达式索引按值排序。前导通配符效率低下，可能导致完整索引扫描。如果表达式中有足够的大小写敏感的前导字符，后置通配符可能是高效的。避免大小写不敏感的正则表达式如果使用正则表达式的唯一原因是大小写不敏感，请改用大小写不敏感索引，因为它们更快。使用WiredTiger存储引擎中提供的索引优化如果您自己管理MongoDB，可以将索引放在单独的卷上，从而实现更快的磁盘分页和较低的争用。有关更多信息，请参见WiredTiger选项。使用解释计划我们在前面的查询模式和性能分析帖子中介绍了使用MongoDB的解释计划，这是检查单个查询的索引覆盖的最佳工具。从解释计划中工作，MongoDB提供了可视化工具，以帮助进一步改善您对索引的理解，并提供智能和自动化的建议，可添加哪些索引。使用MongoDB Compass和Atlas数据浏览器可视化索引覆盖作为MongoDB的免费GUI，Compass提供许多功能来帮助您优化查询性能，包括探索模式和可视化查询解释计划，这些都是本系列之前介绍过的两个领域。 Compass中的索引选项卡为您的工具库增加了另一个工具。它列出了集合的现有索引，报告索引的名称和键，以及其类型、大小和任何特殊属性。通过索引选项卡，您还可以根据需要添加和删除索引。使用MongoDB Compass管理索引图1：使用MongoDB Compass管理索引一个非常有用的功能是索引使用情况，它显示了索引的使用频率。拥有太多索引可能对性能造成几乎与拥有太少索引一样的破坏性影响，因此这个功能在帮助您识别和删除未使用的索引方面尤其有价值。这有助于释放工作集空间，并消除由于维护索引而产生的数据库开销。如果您在我们全面托管的Atlas服务中运行MongoDB，则数据浏览器中的索引视图将为您提供与Compass相同的功能，而无需使用单独的工具连接到数据库。您还可以使用$indexStats聚合管道阶段检索索引统计信息。自动化索引建议即使MongoDB的工具提供了所有的遥测信息，您仍然需要负责获取和分析所需的数据，以做出添加哪些索引的决策。慢查询的阈值根据集群上操作的平均时间而异，以提供与您的工作负载相关的建议。建议的索引附带有示例查询，根据查询形状（即具有相似谓词结构、排序和投影的查询）分组，这些查询运行在可以受益于添加建议索引的集合上。性能顾问不会对Atlas集群的性能产生负面影响。如果您对建议满意，可以自动推出新的索引，而无需产生任何应用程序停机时间。接下来这就是性能最佳实践系列的最新一篇。MongoDB University提供了一门关于MongoDB性能的免费Web培训课程。这是了解索引的强大之处的好方法。本系列的下一篇是分片。

November 28, 2023

Next →

Production-Ready Agents Need A Production-Ready Data Platform

There’s a common theme to the conversations I’ve been having with AI teams lately: change. Constant, head-spinning change. Teams across industries are evaluating and re-evaluating model providers, agent frameworks, and harnesses on a continuous basis. At MongoDB, we believe that your choice of technology partner—specifically, your data platform—should simplify how you build with AI. It should deliver performance at scale, enable you to build and run anywhere, and it should allow you to choose your own providers and frameworks. This is exactly what MongoDB offers, and it’s why more than 67,000 customers rely on us for their most important applications. The organizations seeing the most AI success are the ones whose technology stacks are set up for the current pace of change. For example, DevRev’s AgentOS platform is powered by MongoDB Atlas. AgentOS handles billions of requests each month, for everything from AI-assisted insights and analytics to internal communications and development. Relying on MongoDB Atlas has helped DevRev get innovations to market faster, and enables the company to scale seamlessly as it grows. MongoDB is ideal for agentic AI in two key ways. First, an agent is only as smart as its context—which requires blending short-term memory, long-term knowledge, and enterprise data. Because this information is highly dynamic and unstructured, JSON is the ideal format. It provides the schema flexibility inherently needed by the data and allows attaching metadata like IDs and confidence scores. MongoDB stores JSON natively and provides the scale and consistency required to run thousands of concurrent agents. Second, it’s designed for how agents work. As memory accumulates, agents must pinpoint the precise context needed for a request. MongoDB solves this by providing state-of-the-art information retrieval capabilities (search, vector search, hybrid search, embeddings) directly where the operational data already lives, eliminating the need to constantly sync data across separate systems. Customers get high-precision semantic retrieval without the operational headache of managing multiple fragmented products. A good example of how MongoDB powers agents is ElevenLabs. The company relies on MongoDB Atlas to power the long-term memory and knowledge base for its autonomous agents. By leveraging Atlas Search and Vector Search, ElevenLabs enables their agents to retain complex context and deliver highly personalized interactions in real-time. Adobe, meanwhile, chose MongoDB as the long-term memory and reasoning layer for Journey Agent, its composite multimodal AI agent that unifies Adobe's marketing suite and orchestrates end-to-end customer journeys. Adobe leverages MongoDB Atlas Search and Atlas Vector Search together to power the sub-100 millisecond hybrid search the agent needs to act in real time. Defining an open standard for agent memory Last month, MongoDB partner LangChain announced the launch of Context Hub in LangSmith, a place to store, version, and collaborate on the files that define how agents behave, like AGENT.md and agent skills. But context engineering goes beyond that. Agents also rely on memory: short-term context captured in states, sessions, and interaction history, and long-term memory that persists across sessions. Figure 1. Agent memory with MongoDB. Production-Ready Agents blog image 1 media Today, there is no broadly adopted open standard for defining and managing portable agent memory across agent frameworks. Now, MongoDB—alongside LangChain and ecosystem partners—is working on an open reference architecture and contributing toward greater interoperability in this space. This work will help define what has been missing from the AI ecosystem: shared interfaces, metadata conventions, versioning patterns, and retrieval semantics for the data that differentiate agentic experiences and shape agent behavior. The aim is to enable organizations to switch model providers or try a new framework on a Tuesday—and not lose Wednesday rewriting memory plumbing. Ultimately, we want to make agent memory and context easier (and faster) to manage. For customer-facing agents to make real-time decisions, such as responding to a support request or making a policy change, they need contextual information instantly. Not info from a data warehouse that might be 30 minutes old. The context layer needs to be real-time, a required capability we’ve been delivering for tens of thousands of customers going on almost two decades. MongoDB’s performant, flexible platform = agentic success The next generation of agents will increasingly be long-horizon systems, running for hours or more. As they take on more complex tasks, context will become even more critical, and agent memory will be central to making them effective. This will create a demand for diverse, high-performance memory systems, and MongoDB is positioned to provide the flexibility and scalability agents require. With the recent release MongoDB 8.3, our core database has evolved to better support the speed and demands of AI workloads. MongoDB also delivers the retrieval accuracy necessary for agent outputs to be trusted (a non-negotiable for customer-facing applications) while optimizing tokens and cost in production. Every AI team is currently making a bet about what the future of the agentic stack will look like. The ones betting on a flexible, production-ready data platform like MongoDB—that enables teams to innovate now while ensuring structure and resilience for the future—will be able to pivot quickly. The ones betting on rigid schema designs, or on a smattering of specific models and frameworks, might end up redoing their plumbing instead of shipping products. Figure 2. Advantages of MongoDB's flexible schema for AI workloads. Production Ready Agents Blog - Image 2 media MongoDB is built for AI: JSON is the lingua franca of AI. The information agents need is highly dynamic and can be structured, semi-structured, and unstructured. MongoDB provides the schema flexibility inherently needed by the data and allows attaching metadata for richer, more precise context. Dynamic, adaptive schemas that evolve in place as fast as thought without breaking what runs on top. The MongoDB document model isn’t adapted for AI; it’s the natural shape of AI data. MongoDB offers one data platform: Every data requirement for production AI is natively integrated. Search, vector search, embeddings, hybrid retrieval, time series, and streaming run on the same OLTP foundation 67,000+ customers trust with mission-critical applications—with one API, one security model, one operational footprint.

June 11, 2026