嵌套对象 | Elasticsearch: 权威指南

原文地址: https://www.elastic.co/guide/cn/elasticsearch/guide/current/nested-objects.html, 版权归 www.elastic.co 所有
英文版地址: https://www.elastic.co/guide/en/elasticsearch/guide/current/nested-objects.html

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» »

« 解决并发问题嵌套对象映射 »

嵌套对象 (Nested Objects)edit

由于在 Elasticsearch 中单个文档的增删改都是原子性操作，那么将相关实体数据都存储在同一文档中也就理所当然。比如说，我们可以将订单及其明细数据存储在一个文档中。又比如，我们可以将一篇博客文章的评论以一个 comments 数组的形式和博客文章放在一起：

PUT /my_index/blogpost/1
{
  "title": "Nest eggs",
  "body":  "Making your money work...",
  "tags":  [ "cash", "shares" ],
  "comments": [ 
    {
      "name":    "John Smith",
      "comment": "Great article",
      "age":     28,
      "stars":   4,
      "date":    "2014-09-01"
    },
    {
      "name":    "Alice White",
      "comment": "More like this please",
      "age":     31,
      "stars":   5,
      "date":    "2014-10-22"
    }
  ]
}

如果我们依赖字段动态映射(dynamic mapping),那么 comments 字段会自动映射为 object 类型。

由于所有的信息都在一个文档中，当我们查询时就没有必要去联合文章和评论文档，查询效率就很高。

但是当我们使用如下查询时，上面的文档也会被当做是符合条件的结果：

GET /_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "name": "Alice" }},
        { "match": { "age":  28      }} 
      ]
    }
  }
}

Alice实际是31岁，不是28!

正如我们在内部对象数组中讨论的一样，出现上面这种问题的原因是 JSON 格式的文档被扁平化处理成简单的键值对结构，比如：

{
  "title":            [ eggs, nest ],
  "body":             [ making, money, work, your ],
  "tags":             [ cash, shares ],
  "comments.name":    [ alice, john, smith, white ],
  "comments.comment": [ article, great, like, more, please, this ],
  "comments.age":     [ 28, 31 ],
  "comments.stars":   [ 4, 5 ],
  "comments.date":    [ 2014-09-01, 2014-10-22 ]
}

Alice 和 31 、 John 和 2014-09-01 之间的相关性不复存在。虽然 object 类型 (参见多层级对象-内部对象) 在存储 单一对象 时非常有用，但对于对象数组的搜索而言，毫无用处。

嵌套对象 就是来解决这个问题的。将 comments 字段类型设置为 nested 而不是 object 后，每一个嵌套对象都会被索引为一个 隐藏的独立文档，比如：

{ 
  "comments.name":    [ john, smith ],
  "comments.comment": [ article, great ],
  "comments.age":     [ 28 ],
  "comments.stars":   [ 4 ],
  "comments.date":    [ 2014-09-01 ]
}
{ 
  "comments.name":    [ alice, white ],
  "comments.comment": [ like, more, please, this ],
  "comments.age":     [ 31 ],
  "comments.stars":   [ 5 ],
  "comments.date":    [ 2014-10-22 ]
}
{ 
  "title":            [ eggs, nest ],
  "body":             [ making, money, work, your ],
  "tags":             [ cash, shares ]
}

	第一个 `嵌套文档`
	第二个 `嵌套文档`
	根文档或者也可称为父文档

在独立索引每一个嵌套对象后，对象中每个字段的相关性得以保留。查询也仅仅匹配有相同嵌套对象的文档。

不仅如此，由于嵌套对象也被索引(在文档内部)，在查询时将嵌套文档与根文档的联接速度非常快 -- 几乎与单个文档一样快。

这些额外的嵌套文档是隐藏存储的，我们不能直接获取。如果要增删改一个嵌套对象，必须把整个文档重新索引才可以。值得注意的是，查询的时候返回的是整个文档，而不只是嵌套对象。

« 解决并发问题嵌套对象映射 »