开始处理各种语言edit

Elasticsearch 为很多世界流行语言提供良好的、简单的、开箱即用的语言分析器集合:

阿拉伯语、亚美尼亚语、巴斯克语、巴西语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦、荷兰语、英语、芬兰语、法语、加里西亚语、德语、希腊语、北印度语、匈牙利语、印度尼西亚、爱尔兰语、意大利语、日语、韩国语、库尔德语、挪威语、波斯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、土耳其语和泰语。

这些分析器承担以下四种角色:

  • 文本拆分为单词:

    The quick brown foxes → [ The, quick, brown, foxes]

  • 大写转小写:

    Thethe

  • 移除常用的 停用词

    [ The, quick, brown, foxes] → [ quick, brown, foxes]

  • 将变型词(例如复数词,过去式)转化为词根:

    foxesfox

为了更好的搜索性,每个语言的分析器提供了该语言词汇的具体转换规则:

  • 英语 分析器移除了所有格 's

    John'sjohn

  • 法语 分析器移除了 元音省略 例如 l'qu'变音符号 例如 ¨^

    l'égliseeglis

  • 德语 分析器规范化了切词, 将切词中的 äae 替换为 a , 或将 ß 替换为 ss

    äußerstausserst