百分位数桶(percentiles_bucket)聚合

一种同级管道聚合,用于计算同级聚合中指定度量的所有桶的百分位数。 指定的度量必须是数字,并且同级聚合必须是多桶聚合。

语法

一个单独的percentiles_bucket看起来像这样:

{
    "percentiles_bucket": {
        "buckets_path": "the_sum"
    }
}

表 17. percentiles_bucket参数

参数名称 描述 是否必需 默认值

buckets_path

我们希望找到百分位数的桶的路径(更多详情请参考 buckets_path语法)

必需

gap_policy

在数据中发现间隙时应用的策略(更多详情请参考处理数据中的间隙)

可选

skip

format

应用于此聚合的输出值的格式

可选

null

percents

要计算的百分位数值的列表

可选

[ 1, 5, 25, 50, 75, 95, 99 ]

keyed

一个标志, 是否将范围作为哈希而不是键值对数组返回

可选

true

下面这个代码片段计算每月总销售额(sales)的百分位数:

POST /sales/_search
{
    "size": 0,
    "aggs" : {
        "sales_per_month" : {
            "date_histogram" : {
                "field" : "date",
                "calendar_interval" : "month"
            },
            "aggs": {
                "sales": {
                    "sum": {
                        "field": "price"
                    }
                }
            }
        },
        "percentiles_monthly_sales": {
            "percentiles_bucket": {
                "buckets_path": "sales_per_month>sales", 
                "percents": [ 25.0, 50.0, 75.0 ] 
            }
        }
    }
}

buckets_path指示这个 percentiles_bucket 聚合,我们要为sales_per_month日期直方图中的sales聚合计算百分位数。

percents指定我们希望计算哪些百分位数,在本例中,是第25、50和75个百分位。

响应可能像下面这样:

{
   "took": 11,
   "timed_out": false,
   "_shards": ...,
   "hits": ...,
   "aggregations": {
      "sales_per_month": {
         "buckets": [
            {
               "key_as_string": "2015/01/01 00:00:00",
               "key": 1420070400000,
               "doc_count": 3,
               "sales": {
                  "value": 550.0
               }
            },
            {
               "key_as_string": "2015/02/01 00:00:00",
               "key": 1422748800000,
               "doc_count": 2,
               "sales": {
                  "value": 60.0
               }
            },
            {
               "key_as_string": "2015/03/01 00:00:00",
               "key": 1425168000000,
               "doc_count": 2,
               "sales": {
                  "value": 375.0
               }
            }
         ]
      },
      "percentiles_monthly_sales": {
        "values" : {
            "25.0": 375.0,
            "50.0": 375.0,
            "75.0": 550.0
         }
      }
   }
}

percentiles_bucket的实现

百分位桶返回不大于所请求的百分位的最接近的输入数据点;它不会在数据点之间进行插值。

百分位数是精确计算的,不是近似值(不同于百分位数度量percentiles metric)。 这意味着在丢弃数据之前,该实现在内存中维护一个数据的排序列表来计算百分位数。 如果你试图在一个percentiles_bucket中计算数百万个数据点的百分位数,则可能会遇到内存压力问题。