触类旁通Elasticsearch之吊打同行系列：分析篇

本文主要是介绍触类旁通Elasticsearch之吊打同行系列：分析篇，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

点击上方蓝色字体，选择“设为星标”

回复”资源“获取更多资源

大数据技术与架构

点击右侧关注，大数据开发领域最强公众号！

大数据真好玩

点击右侧关注，大数据真好玩！

一、什么是分析

二、分析文

三、分析API

四、分析器、分词器、分词过滤器

内置分析器
分词器
分词过滤器

五、N元语法、侧边N元语法、滑动窗口

六、IK中文分词插件

一、什么是分析

分析（analysis）是在文档被发送并加入倒排索引之前，ES在其主体上进行的操作。在文档被加入索引之前，ES让每个被分析字段经过一系列的处理步骤。

字符过滤：使用字符过滤器转变字符。
文本切分为分词：将文本切分为单个或多个分词。
分词过滤：使用分词过滤器转变每个分词。
分词索引：将这些分词存储到索引中。

图1展示了将文本“share your experience with NoSql & big data technologies”进行分析的整个流程。

（1）字符过滤
字符过滤将特定的字符序列转变为其它的字符序列。图1中使用特定过滤器将&替换为“and”。

（2）切分为分词
Lucene处理的是被称为分词（token）的数据。分词是从文本片段生成的，可能会产生任意数量（甚至是0）的分词。例如，标准英文分词器根据空格、换行和破折号等字符，将文本分割为分词。图1中，这种行为表现为将字符串“share your experience with NoSql and big data technologies”分割为分词share、your、experience、with、NoSql、and、big、data和technologies。

（3）分词过滤
一旦文本被转换为分词，ES将会对每个分词运用分词过滤器（token filter）。这些分析过滤器可以将一个分词作为输入，然后根据需要进行修改、添加或删除。图1给出的例子中，有3种分词过滤器：第一个将分析转为小写，第二个删除停用词“and”，第三个将词条“tools”作为“technologies”的同义词进行添加。

（4）分词索引
当分词经过零个或多个分词过滤器，它们将被发送到Lucene进行文档的索引，这些分词组成了倒排索引。

零个或多个字符过滤器、一个分词器、零个或多个分词过滤器组成了一个分析器（analyzer）。搜索在索引中执行之前，根据所使用的查询类型，分析同样可以运用到搜索的文本。如match、match_phrase在搜索之前会对文本执行分析步骤，而term和terms则不会。