本文主要是介绍中文分词工具-IKAnalyzer下载及使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
关键字:中文分词、IKAnalyzer最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
下载解压之后主要使用和依赖以下文件:
IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包
IKAnalyzer.cfg.xml — 配置文件,可以在这里配置停词表和扩展词库
stopword.dic — 停词表
lucene-core-3.6.0.jar — lucene jar包,注意:只能使用这个3.6版本,高版本有问题
IKAnalyzer中文分词器V2012_U5使用手册.pdf — 使用手册
实例代码:
既可以进行分词后的处理。
其中必须两个jar包一起使用。
以上内容部分转载:
http://lxw1234.com/archives/2015/07/422.htmlxw的大数据田地 » 中文分词工具-IKAnalyzer下载及使用
详解整个流程
http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html
有代码包
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
详解IKAnalyzer 独立使用 配置扩展词典
这篇关于中文分词工具-IKAnalyzer下载及使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!