【搜索引擎分析策略（Analyzer = Tokenizer + Filter）】种瓜得豆？

本文主要是介绍【搜索引擎分析策略（Analyzer = Tokenizer + Filter）】种瓜得豆？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

你晓得伐？Solr的文本分析链

  <analyzer type="index或者query"><tokenizer class="solr.StandardTokenizerFactory"/> 只会有一个分词器！<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 可以有多个过滤器！<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 可以有多个过滤器！<filter class="org.apache.lucene.analysis.core.LowerCaseFilterQueryFactory"/> 可以有多个过滤器！</analyzer>

单词	含义	拓展
term	词项	被分词器分词出来的独立的词项
analyzer	分析器（整部剧叫做鹿鼎记）	一般包含了一个tokenizer和多个filter
tokenizer	分词器（有且只有一个韦小宝）	首先，将文档分成一个一个单独的单词，也就是词项
filter	过滤器（韦小宝的妻妾成群）	其次，对词项进行自定义处理，比如去除停词，筛选同义词，大写转小写等

你晓得伐？ES的文本分析步骤

步骤	描述	举例	个数
1. 字符过滤（character filtering）	调整或者过滤文本字段的字符	HTMLStripCharFilter	可配置多个字符过滤器
2. 分词处理（tokenization）	原生文本会被转换成一连串的token，基本方法是采用标准分词器，利用“空格”和“标点符号”将文本切分成token。	StandardTokenizer	任何给定的分析链上，只可能有一个分词器（有且只有一个韦小宝）
3. token过滤（token filtering）	通过对token的添加、删除和修改，对“token流”加以调整	LowerCaseFilter，SynonymFilter和StopWordFilter	可配置多个token过滤器（韦小宝的妻妾成群）

各个行业，各个垂直领域需要根据具体业务场景选用或者开发适合自己的analyzer，比如Lucene为NLP领域提供的analyzers-opennlp工具包。
The Apache OpenNLP library is a machine learning based toolkit for the processing of natural language text.
ES为各种语言提供了简便易用的Analysis Plugins文本分析工具，比如ayalysisc-icu和analysis-kuromoji插件。

索引输入

id,title,name
1234,a the mazhaohui CCC,a the mazhaohui this Apple

期望查询结果

索引时被过滤的字段（比如停用词），仍然在查询时保留作为查询条件。

优化思路

fieldType支持配置analyzer作为文本解析器，同时analyzer可以分“index”和“query”两个场景。analyzer中支持配置tokenizer和filter对词项进行定制化操作，比如Solr自带的StandardTokenizer，它是TokenStream类的实现类，各种Filter比如StopFilterFactory和LowerCaseFilter，他们也都是TokenStream的子类（本是同根生，相煎何太急）。
每个TokenStream的实现类都必须必须实现incrementToken方法，对词项进行自定义修改。因此可以考虑在query场景的分词过滤器中自定义是否将查询词项过滤或者保留，以实现和索引不一样的分词逻辑。
某些查询词项在索引时被分词器或者过滤器过滤，现在需要将某些特定的查询词项保留，使得该查询条件仍然在查询时生效。

在索引时，可以减少索引的存储量，减少磁盘占用空间，提升索引的性能；
在查询时，带上了早已被过滤的查询条件，可能带来查询性能的提升，无论是AND（减少结果集，减少带宽占用）还是OR（至少不会增大结果集）操作。

managed-schema配置分析器

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"><analyzer type="index"><tokenizer class="solr.StandardTokenizerFactory"/><filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /><!-- in this example, we will only use synonyms at query time<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>--><filter class="solr.LowerCaseFilterFactory"/></analyzer><analyzer type="query"><tokenizer class="solr.StandardTokenizerFactory"/><filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /><filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/><filter class="org.apache.lucene.analysis.core.LowerCaseFilterQueryFactory"/></analyzer>
</fieldType>

设置停词表stopwords.txt

更新停词表stopwords.txt，更新配置集，索引重新加载配置集，重启Solr服务才能生效。

本是同根生，相煎何太急

StandardTokenizer是一个TokenStream，各种Filter比如LowerCaseFilter也是一个TokenStream，也就是说他们拥有共同的父类。
每个TokenStream的实现类都必须必须实现incrementToken方法，对词项进行自定义的修改。
Do whatever you want.

首当其冲的是用StandardTokenizer将词项分出来

StandardTokenizer的scanner从Reader里逐个读出每个分词出来的词项。

a
the
mazhaohui
CCC

取其精华，去其糟粕

在StandardTokenizer和FilteringTokenFilter完成incrementToken之后，“a the mazhaohui”这些停词已经被过滤掉了，
接下来，在LowerCaseFilter的incrementToken（基类TokenStream的抽象方法）成功将词项CCC，转成了小写的ccc。

因此，最终title字段会索引ccc词项以供查询(indexed)，而a the mazhaohui词项被设置为停词，不会被索引，只会被查询ccc的结果带出(stored)。分词过滤逻辑到此结束，接着由DefaultIndexingChain继续索引流程。

样例测试

在停词表stopwords.txt中增加abcdefg
设置查询条件为title:abcdefg

结果展示

经过调试可以看到，在索引时会被直接当做停词过滤的词项"abcdefg"，在查询时被当做查询条件接受了。这时词项“abcdefg”就会存活下来，作为查询条件继续后续的查询流程。

Exception

ClassNotFoundException: solr.StopFilterQueryFactory类找不到？！简写包名看起来不行~

Solution

managed-schema配置query场景下的分词过滤器，使用刚刚新建出来的StopFilterQueryFactory类，注意写上完整包名。

Reference

https://github.com/apache/lucene-solr/blob/master/solr/core/src/test-files/solr/collection1/conf/stopwords.txt
https://github.com/magese/ik-analyzer-solr7
https://www.ibm.com/support/knowledgecenter/en/SSZLC2_9.0.0/com.ibm.commerce.tutorials.doc/tutorial/tsd_search3_solrconfig.htm
https://www.cnblogs.com/immortal-ghost/p/6954360.html

这篇关于【搜索引擎分析策略（Analyzer = Tokenizer + Filter）】种瓜得豆？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【搜索引擎分析策略（Analyzer = Tokenizer + Filter）】种瓜得豆？

你晓得伐？Solr的文本分析链

你晓得伐？ES的文本分析步骤

索引输入

期望查询结果

优化思路

managed-schema配置分析器

设置停词表stopwords.txt

本是同根生，相煎何太急

首当其冲的是用StandardTokenizer将词项分出来

取其精华，去其糟粕

样例测试

结果展示

Exception

Solution

Reference

相关文章

MySQL中的LENGTH()函数用法详解与实例分析

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

怎样通过分析GC日志来定位Java进程的内存问题

MySQL中的表连接原理分析

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

python中Hash使用场景分析

SpringBoot中4种数据水平分片策略

Java Stream的distinct去重原理分析

关于MyISAM和InnoDB对比分析

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)