原英文版地址: https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-bucket-range-field-note.html, 原文档版权归 www.elastic.co 所有
本地英文版地址: ../en/search-aggregations-bucket-range-field-note.html
本地英文版地址: ../en/search-aggregations-bucket-range-field-note.html
重要: 此版本不会发布额外的bug修复或文档更新。最新信息请参考 当前版本文档。
因为一个范围代表多个值,所以对一个范围字段运行桶聚合会导致同一文档出现在多个桶中。 这可能导致令人惊讶的结果,例如桶计数的总和高于匹配文档的数量。 例如,看下面这个索引:
PUT range_index { "settings": { "number_of_shards": 2 }, "mappings": { "properties": { "expected_attendees": { "type": "integer_range" }, "time_frame": { "type": "date_range", "format": "yyyy-MM-dd||epoch_millis" } } } } PUT range_index/_doc/1?refresh { "expected_attendees" : { "gte" : 10, "lte" : 20 }, "time_frame" : { "gte" : "2019-10-28", "lte" : "2019-11-04" } }
该范围(10 ~ 20)比下面这个聚合中的 interval 更宽,因此文档将落入多个桶中。
POST /range_index/_search?size=0 { "aggs" : { "range_histo" : { "histogram" : { "field" : "expected_attendees", "interval" : 5 } } } }
因为 interval 是5
(默认情况下偏移量是0
),所以我们期望桶是 10
、15
和 20
。上面那个范围文档将属于这三个桶。
{ ... "aggregations" : { "range_histo" : { "buckets" : [ { "key" : 10.0, "doc_count" : 1 }, { "key" : 15.0, "doc_count" : 1 }, { "key" : 20.0, "doc_count" : 1 } ] } } }
文档不能部分存在于一个桶中;比如上面的文档,在上面的三个桶里都不能算三分之一。 在这个例子中,由于文档的范围落在多个桶中,该文档的全部值也将计入每个桶的任何子聚合中。
查询用于过滤正在聚合的字段时,可能会出现另一种意外的行为。 在这种情况下,文档可能与查询匹配,但仍有一个或两个端点在查询范围之外。 比如下面这个对上述文档的聚合:
POST /range_index/_search?size=0 { "query": { "range": { "time_frame": { "gte": "2019-11-01", "format": "yyyy-MM-dd" } } }, "aggs" : { "november_data" : { "date_histogram" : { "field" : "time_frame", "calendar_interval" : "day", "format": "yyyy-MM-dd" } } } }
尽管这个查询只考虑11月的天数,但聚合产生了8个时段(10月4个,11月4个),因为聚合是在所有匹配文档的范围内计算的。
{ ... "aggregations" : { "november_data" : { "buckets" : [ { "key_as_string" : "2019-10-28", "key" : 1572220800000, "doc_count" : 1 }, { "key_as_string" : "2019-10-29", "key" : 1572307200000, "doc_count" : 1 }, { "key_as_string" : "2019-10-30", "key" : 1572393600000, "doc_count" : 1 }, { "key_as_string" : "2019-10-31", "key" : 1572480000000, "doc_count" : 1 }, { "key_as_string" : "2019-11-01", "key" : 1572566400000, "doc_count" : 1 }, { "key_as_string" : "2019-11-02", "key" : 1572652800000, "doc_count" : 1 }, { "key_as_string" : "2019-11-03", "key" : 1572739200000, "doc_count" : 1 }, { "key_as_string" : "2019-11-04", "key" : 1572825600000, "doc_count" : 1 } ] } } }
根据用例的不同,CONTAINS
查询可以将文档限制为完全属于查询范围的文档。
在本例中,那个文档不会被包括进去,聚合将为空。
对于应该对文档进行计数,但是可以安全地忽略越界数据的用例,在聚合之后对桶进行过滤也是一种选择。