本地英文版地址: ../en/search-aggregations-metrics-extendedstats-aggregation.html
一种multi-value(多值)
度量聚合,计算从聚合文档中提取的数值的统计(stats)数据。 值可以从文档的给定的 numeric 字段中提取,也可以由脚本生成。
extended_stats
聚合是 stats
聚合的扩展版本,其中添加了额外的度量,如sum_of_squares
、variance
、std_deviation
和 std_deviation_bounds
。
假设数据由代表学生考试成绩(0到100之间)的文档组成:
GET /exams/_search { "size": 0, "aggs" : { "grades_stats" : { "extended_stats" : { "field" : "grade" } } } }
上述聚合计算所有文档的分数统计信息。
聚合类型是 extended_stats
,field
设置定义了用于统计计算的文档的 numeric 字段。 上面的查询将返回以下内容:
{ ... "aggregations": { "grades_stats": { "count": 2, "min": 50.0, "max": 100.0, "avg": 75.0, "sum": 150.0, "sum_of_squares": 12500.0, "variance": 625.0, "std_deviation": 25.0, "std_deviation_bounds": { "upper": 125.0, "lower": 25.0 } } } }
聚合的名称(上面的grades_stats
)也用作键,通过它可以从返回的响应中检索聚合结果。
默认情况下,extended_stats
度量将返回一个名为 std_deviation_bounds
的对象,该对象提供了一个距离平均值正负两个标准差的区间。
这是一种可视化数据差异的有用方法。
如果你想要使用不同的边界,例如三个标准偏差,可以在请求中设置 sigma
:
GET /exams/_search { "size": 0, "aggs" : { "grades_stats" : { "extended_stats" : { "field" : "grade", "sigma" : 3 } } } }
sigma
可以是任何非负的浮点数,这意味着你可以请求非整数值,如1.5
。
值 0
是有效的,但是将简单地返回upper
(上) 和 lower
(下) 限的平均值。
标准差和界限需要正态性
默认情况下会显示标准差及其界限,但它们并不总是适用于所有数据集。 数据必须是正态分布的,这样度量才有意义。 标准差背后的统计会假设数据呈正态分布,因此,如果数据严重向左或向右倾斜,返回的值将会产生误导。
基于脚本计算成绩的统计数据:
GET /exams/_search { "size": 0, "aggs" : { "grades_stats" : { "extended_stats" : { "script" : { "source" : "doc['grade'].value", "lang" : "painless" } } } } }
这将把参数 script
解释为一个 inline
(内联) 脚本,使用painless
(无痛) 脚本语言,没有脚本参数。
要使用一个已存储的脚本,请使用以下语法:
GET /exams/_search { "size": 0, "aggs" : { "grades_stats" : { "extended_stats" : { "script" : { "id": "my_script", "params": { "field": "grade" } } } } } }