原文地址: https://www.elastic.co/guide/cn/elasticsearch/guide/current/language-intro.html, 版权归 www.elastic.co 所有
英文版地址: https://www.elastic.co/guide/en/elasticsearch/guide/current/language-intro.html
英文版地址: https://www.elastic.co/guide/en/elasticsearch/guide/current/language-intro.html
请注意:
本书基于 Elasticsearch 2.x 版本,有些内容可能已经过时。
本书基于 Elasticsearch 2.x 版本,有些内容可能已经过时。
开始处理各种语言edit
Elasticsearch 为很多世界流行语言提供良好的、简单的、开箱即用的语言分析器集合:
阿拉伯语、亚美尼亚语、巴斯克语、巴西语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦、荷兰语、英语、芬兰语、法语、加里西亚语、德语、希腊语、北印度语、匈牙利语、印度尼西亚、爱尔兰语、意大利语、日语、韩国语、库尔德语、挪威语、波斯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、土耳其语和泰语。
这些分析器承担以下四种角色:
-
文本拆分为单词:
The quick brown foxes
→ [The
,quick
,brown
,foxes
] -
大写转小写:
The
→the
-
移除常用的 停用词:
[
The
,quick
,brown
,foxes
] → [quick
,brown
,foxes
] -
将变型词(例如复数词,过去式)转化为词根:
foxes
→fox
为了更好的搜索性,每个语言的分析器提供了该语言词汇的具体转换规则:
-
英语
分析器移除了所有格's
John's
→john
-
法语
分析器移除了 元音省略 例如l'
和qu'
和 变音符号 例如¨
或^
:l'église
→eglis
-
德语
分析器规范化了切词, 将切词中的ä
和ae
替换为a
, 或将ß
替换为ss
:äußerst
→ausserst