extended_stats 聚合

一种multi-value(多值)度量聚合,计算从聚合文档中提取的数值的统计(stats)数据。 值可以从文档的给定的 numeric 字段中提取,也可以由脚本生成。

extended_stats 聚合是 stats 聚合的扩展版本,其中添加了额外的度量,如sum_of_squaresvariancestd_deviationstd_deviation_bounds

假设数据由代表学生考试成绩(0到100之间)的文档组成:

GET /exams/_search
{
    "size": 0,
    "aggs" : {
        "grades_stats" : { "extended_stats" : { "field" : "grade" } }
    }
}

上述聚合计算所有文档的分数统计信息。 聚合类型是 extended_statsfield 设置定义了用于统计计算的文档的 numeric 字段。 上面的查询将返回以下内容:

{
    ...

    "aggregations": {
        "grades_stats": {
           "count": 2,
           "min": 50.0,
           "max": 100.0,
           "avg": 75.0,
           "sum": 150.0,
           "sum_of_squares": 12500.0,
           "variance": 625.0,
           "std_deviation": 25.0,
           "std_deviation_bounds": {
            "upper": 125.0,
            "lower": 25.0
           }
        }
    }
}

聚合的名称(上面的grades_stats)也用作键,通过它可以从返回的响应中检索聚合结果。

标准偏差界限 (standard deviation bounds)

默认情况下,extended_stats 度量将返回一个名为 std_deviation_bounds 的对象,该对象提供了一个距离平均值正负两个标准差的区间。 这是一种可视化数据差异的有用方法。 如果你想要使用不同的边界,例如三个标准偏差,可以在请求中设置 sigma

GET /exams/_search
{
    "size": 0,
    "aggs" : {
        "grades_stats" : {
            "extended_stats" : {
                "field" : "grade",
                "sigma" : 3 
            }
        }
    }
}

sigma 控制应该显示多少偏离平均值的标准偏差

sigma 可以是任何非负的浮点数,这意味着你可以请求非整数值,如1.5。 值 0 是有效的,但是将简单地返回upper(上) 和 lower(下) 限的平均值。

标准差和界限需要正态性

默认情况下会显示标准差及其界限,但它们并不总是适用于所有数据集。 数据必须是正态分布的,这样度量才有意义。 标准差背后的统计会假设数据呈正态分布,因此,如果数据严重向左或向右倾斜,返回的值将会产生误导。

脚本

基于脚本计算成绩的统计数据:

GET /exams/_search
{
    "size": 0,
    "aggs" : {
        "grades_stats" : {
            "extended_stats" : {
                "script" : {
                    "source" : "doc['grade'].value",
                    "lang" : "painless"
                 }
             }
         }
    }
}

这将把参数 script 解释为一个 inline(内联) 脚本,使用painless(无痛) 脚本语言,没有脚本参数。 要使用一个已存储的脚本,请使用以下语法:

GET /exams/_search
{
    "size": 0,
    "aggs" : {
        "grades_stats" : {
            "extended_stats" : {
                "script" : {
                    "id": "my_script",
                    "params": {
                        "field": "grade"
                    }
                }
            }
        }
    }
}

值脚本(value script)

事实证明,这次考试远远超出了学生的水平,需要进行分数修正。 我们可以使用一个值脚本来获取新的统计数据:

GET /exams/_search
{
    "size": 0,
    "aggs" : {
        "grades_stats" : {
            "extended_stats" : {
                "field" : "grade",
                "script" : {
                    "lang" : "painless",
                    "source": "_value * params.correction",
                    "params" : {
                        "correction" : 1.2
                    }
                }
            }
        }
    }
}

缺失的值

参数 missing 定义应该如何处理有缺失值的文档。 默认情况下,它们会被忽略,但也可以将它们视为有一个(默认)值。

GET /exams/_search
{
    "size": 0,
    "aggs" : {
        "grades_stats" : {
            "extended_stats" : {
                "field" : "grade",
                "missing": 0 
            }
        }
    }
}

grade 字段中没有值的文档将与值为 0的文档落入同一个桶。