达学专题

跟益达学Solr5之拼音分词[改进版]

之前一篇介绍过如何自定义实现拼音分词器，不过当初只考虑了全拼这种情况，且有些BUG，趁着抗日胜利70周年阅兵3天假期有时间，又把当初的代码拿起来进行了改进，改进点包括支持全拼，简拼以及全拼+简拼，支持汉字数字是否NGram处理的可配置，支持NGram长度范围的可配置等，特此更新此篇进行分享！如有不妥之处，还望不吝指正！废话不多说，直接上代码： import java.i

跟益达学Solr5之拼音分词

应群友强烈要求，特此更新此篇博客。其实在我的Lucene5系列博客里我已经介绍了拼音分词，遗憾的是，大家不能举一反三，好吧，还是我亲自上马吧！首先我们来看看我当初使用Lucene5是如何实现的，在Solr5中，我们只需要为IKTokenizer扩展一个IKTokenizerFactory,为PinyinTokenFilter扩展一个PinyinTokenFi

跟益达学Solr5之使用MMSeg4J分词器

要想在Sor中使用MMSeg4J分词器，首先你需要自定义一个TokenizerFactory实现类，虽然直接配置Analyzer类也可以，但那样无法配置Analyzer构造函数的参数，不够灵活，存在弊端，所以我一直都是以扩展TokenizerFactory的方式来讲解类似MMSeg4J这样的中文分词器在Solr中的使用。 MMSegTokenizerFactory类我花

跟益达学Solr5之使用Ansj分词器

OK,直接开门见山，不绕弯子啦！基于上篇博客，我们知道了在Solr中配置分词器有两种方式，一种是直接配置分词器类，比如： <fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer" /> </fieldType