solr4.3默认的分词器

2024-03-18 19:38

文章标签 默认分词器 solr4.3

本文主要是介绍solr4.3默认的分词器，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

solr4.3默认的分词器是一元分词器，这个本来就是对英文进行分词的，英文大部分就是典型的根据空格进行分词，而中文如果按照这个规则，那么显然是要有很多的冗余词被分出来，一些没有用的虚词，数词，都会被分出来，影响效率不说，关键是分词效果不好，所以可以利用solr的同步发行包smartcn进行中文切词，smartcn的分词准确率不错，但就是不能自己定义新的词库，不过smartcn是跟solr同步的，所以不需要额外的下载，只需在solr的例子中拷贝进去即可，下面给出路径图和安装solr4.3的smartcn分词过程
无论安装那种分词器，大部分都有2个步骤，第一步是拷贝jar包到solr的lib中

Java代码

C:\桌面\solr-4.3.0\contrib\analysis-extras\lucene-libs
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
smartcn的同步发行包:lucene-analyzers-smartcn-4.3.0.jar

C:\桌面\solr-4.3.0\contrib\analysis-extras\lucene-libs
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
smartcn的同步发行包:lucene-analyzers-smartcn-4.3.0.jar

这个弄好之后，就需要在schemal.xml文件中，注册分词器了

Java代码

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<!--
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
-->
<!-- in this example, we will only use synonyms at query time
<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
-->
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<!--
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
-->
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
</fieldType>

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100"><analyzer type="index"><!-- 此处需要配置主要的分词类 --><tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/><!--  <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /><filter class="solr.LowerCaseFilterFactory"/> --><!-- in this example, we will only use synonyms at query time<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>--><filter class="solr.SmartChineseWordTokenFilterFactory"/></analyzer><analyzer type="query"><!-- 此处配置同上 --><tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/><!-- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /><filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/><filter class="solr.LowerCaseFilterFactory"/>--><filter class="solr.SmartChineseWordTokenFilterFactory"/></analyzer></fieldType>

最后在引用一下字段类型就可以了

Java代码

<field name="sma" type="text_smart" indexed="true" stored="true" multiValued="true"/>

<field name="sma" type="text_smart" indexed="true" stored="true" multiValued="true"/>

访问http://localhost:8080/solr/#/collection1点击分词分析即可查看分词效果

这篇关于solr4.3默认的分词器的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

solr4.3默认的分词器

相关文章

Nginx中配置使用非默认80端口进行服务的完整指南

更改linux系统的默认Python版本方式

Spring Boot 中的默认异常处理机制及执行流程

c++ 类成员变量默认初始值的实现

nginx启动命令和默认配置文件的使用

PostgreSQL 默认隔离级别的设置

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

RedisTemplate默认序列化方式显示中文乱码的解决

C++/类与对象/默认成员函数@构造函数的用法

C++类和对象之默认成员函数的使用解读