Docs 菜单

Docs 主页开发应用程序MongoDB Manual

$stdDevSamp(聚合)

在此页面上

  • 定义
  • 语法
  • 行为
  • 举例
$stdDevSamp

5.0 版本中的更改

计算输入值的样本标准偏差。如果这些值包含要概括总体数据的数据总体样本,则使用此值。 $stdDevSamp忽略非数值。

如果这些值代表整个数据总体,或者您不希望对更大的数据总体进行概括,请改用$stdDevPop

$stdDevSamp 可在以下阶段使用:

用于$bucket$bucketAuto$group$setWindowFields阶段时, $stdDevSamp采用以下语法:

{ $stdDevSamp: <expression> }

用于其他受支持的阶段时, $stdDevSamp采用以下两种语法之一:

  • $stdDevSamp 有一个指定的表达式作为其操作数:

    { $stdDevSamp: <expression> }
  • $stdDevSamp 有一个指定表达式组成的列表作为其操作数:

    { $stdDevSamp: [ <expression1>, <expression2> ... ] }

$stdDevSamp的参数可以是任何表达式,只要它解析为数组即可。

有关表达式的更多信息,请参阅表达式

$stdDevSamp忽略非数值。如果求和的所有操作数都是非数字,则$stdDevSamp返回null

如果样本由单个数值组成,则$stdDevSamp返回null

$group$setWindowFields阶段,如果表达式解析为数组,则$stdDevSamp会将操作数视为非数字值。

在其他支持的阶段:

  • 使用单个表达式作为操作数,如果表达式解析为数组, $stdDevSamp会遍历数组,对数组的数字元素进行操作,返回单个值。

  • 将表达式列表作为其操作数,如果任何表达式解析为数组,则$stdDevSamp不会遍历该数组,而是将该数组视为非数字值。

$setWindowFields阶段窗口中具有值的行为:

  • 忽略窗口中的非数字值、 null值和缺失字段。

  • 如果窗口为空,则返回null

  • 如果窗口包含NaN值,则返回null

  • 如果窗口包含Infinity值,则返回null

  • 如果前面的点都不适用,则返回double值。

collection users 包含具有以下字段的文档:

{_id: 0, username: "user0", age: 20}
{_id: 1, username: "user1", age: 42}
{_id: 2, username: "user2", age: 28}
...

要计算用户样本的标准差,以下聚合操作首先使用$sample管道对100用户进行采样,然后使用$stdDevSamp计算采样用户的标准差。

db.users.aggregate(
[
{ $sample: { size: 100 } },
{ $group: { _id: null, ageStdDev: { $stdDevSamp: "$age" } } }
]
)

该操作返回如下结果:

{ "_id" : null, "ageStdDev" : 7.811258386185771 }

版本 5.0 中的新增功能

创建cakeSales集合,其中包含加利福尼亚州 ( CA ) 和华盛顿州 ( WA ) 的蛋糕销售情况:

db.cakeSales.insertMany( [
{ _id: 0, type: "chocolate", orderDate: new Date("2020-05-18T14:10:30Z"),
state: "CA", price: 13, quantity: 120 },
{ _id: 1, type: "chocolate", orderDate: new Date("2021-03-20T11:30:05Z"),
state: "WA", price: 14, quantity: 140 },
{ _id: 2, type: "vanilla", orderDate: new Date("2021-01-11T06:31:15Z"),
state: "CA", price: 12, quantity: 145 },
{ _id: 3, type: "vanilla", orderDate: new Date("2020-02-08T13:13:23Z"),
state: "WA", price: 13, quantity: 104 },
{ _id: 4, type: "strawberry", orderDate: new Date("2019-05-18T16:09:01Z"),
state: "CA", price: 41, quantity: 162 },
{ _id: 5, type: "strawberry", orderDate: new Date("2019-01-08T06:12:03Z"),
state: "WA", price: 43, quantity: 134 }
] )

此示例在 阶段使用$stdDevSamp $setWindowFields来输出每个quantity 的蛋糕销售的state 值的样本标准差:

db.cakeSales.aggregate( [
{
$setWindowFields: {
partitionBy: "$state",
sortBy: { orderDate: 1 },
output: {
stdDevSampQuantityForState: {
$stdDevSamp: "$quantity",
window: {
documents: [ "unbounded", "current" ]
}
}
}
}
}
] )

在示例中:

  • partitionBy: "$state"state 对集合中的文档分区CAWA 都有分区。

  • sortBy: { orderDate: 1 }orderDate 以升序 (1) 对每个分区中的文档进行排序,因此最早的 orderDate 位于最前面。

  • output stdDevSampQuantityForState使用在quantity 文档 窗口中运行的$stdDevSamp 将 字段设置为 值的样本标准差。

    窗口包含介于unbounded下限和输出中current文档之间的文档。这意味着$stdDevSamp返回分区开头和当前文档之间文档的quantity值的样本标准偏差。

在此输出中, CAWA的样本标准偏差quantity值显示在stdDevSampQuantityForState字段中:

{ "_id" : 4, "type" : "strawberry", "orderDate" : ISODate("2019-05-18T16:09:01Z"),
"state" : "CA", "price" : 41, "quantity" : 162, "stdDevSampQuantityForState" : null }
{ "_id" : 0, "type" : "chocolate", "orderDate" : ISODate("2020-05-18T14:10:30Z"),
"state" : "CA", "price" : 13, "quantity" : 120, "stdDevSampQuantityForState" : 29.698484809834994 }
{ "_id" : 2, "type" : "vanilla", "orderDate" : ISODate("2021-01-11T06:31:15Z"),
"state" : "CA", "price" : 12, "quantity" : 145, "stdDevSampQuantityForState" : 21.1266025033211 }
{ "_id" : 5, "type" : "strawberry", "orderDate" : ISODate("2019-01-08T06:12:03Z"),
"state" : "WA", "price" : 43, "quantity" : 134, "stdDevSampQuantityForState" : null }
{ "_id" : 3, "type" : "vanilla", "orderDate" : ISODate("2020-02-08T13:13:23Z"),
"state" : "WA", "price" : 13, "quantity" : 104, "stdDevSampQuantityForState" : 21.213203435596427 }
{ "_id" : 1, "type" : "chocolate", "orderDate" : ISODate("2021-03-20T11:30:05Z"),
"state" : "WA", "price" : 14, "quantity" : 140, "stdDevSampQuantityForState" : 19.28730152198591 }
← $stdDevPop(聚合)