本文主要是介绍Java实现Smartcn中文分词,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
新建一个Maven项目,修改pom.xml文件内容:注意版本的不同;
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers-smartcn</artifactId><version>4.0.0</version></dependency>
Java代码如下:
package com.accord.test;import java.io.File;
import java.io.FileReader;
import java.io.Reader;
import java.util.Iterator;import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;
import org.apache.lucene.util.Version;public class SmartChineseAnalyzerTest {public static void main(String[] args) {try {// 要处理的文本//Reader text = "lucene分析器使用分词器和过滤器构成一个“管道”,文本在流经这个管道后成为可以进入索引的最小单位,因此,一个标准的分析器有两个部分组成,一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter,它主要作用是对切出来的词进行进一步的处理(如去掉敏感词、英文大小写转换、单复数处理)等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本,然后利用TokenFilter对输出流进行过滤处理";Reader text = new FileReader(new File("E:" + File.separator + "2018.txt"));//文件内容:lucene分析器使用分词器和过滤器构成一个“管道”,文本在流经这个管道后成为可以进入索引的最小单位,因此,一个标准的分析器有两个部分组成,一个是分词器tokenizer,它用于将文本按照规则切分为一个个可以进入索引的最小单位。另外一个是TokenFilter,它主要作用是对切出来的词进行进一步的处理(如去掉敏感词、英文大小写转换、单复数处理)等。lucene中的Tokenstram方法首先创建一个tokenizer对象处理Reader对象中的流式文本,然后利用TokenFilter对输出流进行过滤处理//String text = "目前我已经用了lucene4.0,虽然是alpha版,但是也是未来的第一步。但是IKAnalyzer不支持lucene4,如果作者在,是否有计划对4支持?何时支持?";// 自定义停用词String[] self_stop_words = { "的", "在","了", "呢", ",", "0", ":", ",", "是", "流" };CharArraySet cas = new CharArraySet(Version.LUCENE_40, 0, true);for (int i = 0; i < self_stop_words.length; i++) {cas.add(self_stop_words[i]);}// 加入系统默认停用词Iterator<Object> itor = SmartChineseAnalyzer.getDefaultStopSet().iterator();while (itor.hasNext()) {cas.add(itor.next());}// 中英文混合分词器(其他几个分词器对中文的分析都不行)SmartChineseAnalyzer sca = new SmartChineseAnalyzer(Version.LUCENE_40, cas);//TokenStream ts = sca.tokenStream("field", text);TokenStream ts = sca.tokenStream("field", text);CharTermAttribute ch = ts.addAttribute(CharTermAttribute.class);ts.reset();while (ts.incrementToken()) {System.out.print(ch.toString()+"\\");}ts.end();ts.close();} catch (Exception ex) {ex.printStackTrace();}}}
运行结果如下:(中文分词结果不是很理想!)
lucen\分析器\使用\分词\器\和\过滤器\构成\一个\管道\文本\流经\这个\管道\后\成为\可以\进入\索引\最\小\单位\因此\一个\标准\分析器\有\两\个\部分\组成\一个\分词\器\token\它\用于\将\文本\按照\规则\切分\为\一个\个\可以\进入\索引\最\小\单位\另外\一个\tokenfilt\它\主要\作用\对\切\出来\词\进行\进一步\处理\如\去掉\敏感\词\英文\大小写\转换\单\复数\处理\等\lucen\中\tokenstram\方法\首先\创建\一\个\token\对象\处理\reader\对象\中\式\文本\然后\利用\tokenfilt\对\输出\进行\过滤\处理\
这篇关于Java实现Smartcn中文分词的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!