本文主要是介绍全文索引----中文分词器mmseg4j,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
通常情况下,我们根据整个字段来索引数据,字段最长时,也不过十个字;但是还有一种情况,如果我们索引的是一篇文章呢?这时候如何处理这个字段,分词器很好的解决了这个问题。
solr服务器默认为我们提供了分词组件,但是Apache Solr提供的分词器对中文不太友好,举例如下:
它把整个句子的每个字都给分开了,这样如果索引一篇文章的话,体验相当的不友好。能够和solr完美集成的中文分词器不少,例如Mmseg4j、IkAnalyzer、ICTCLAS等。本文以Mmeseg4j为例,介绍中文分词器的使用。
一 引入jar包
下载以下三个jar包,mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar,放到目录:/usr/local/solr-4.7.2/example/solr-webapp/webapp/WEB-INF/lib。
这篇关于全文索引----中文分词器mmseg4j的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!