本文主要是介绍java分词器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Ansj中文分词
这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
- 访问 http://maven.nlpcn.org/org/ansj/ 最好下载最新版 ansj_seg/
- 同时下载nlp-lang.jar 需要和ansj_seg 配套..配套关系可以看jar包中的maven依赖,一般最新的ansj配最新的nlp-lang不会有错。
- 导入到eclipse ,开始你的程序吧
maven
<dependency><groupId>org.ansj</groupId><artifactId>ansj_seg</artifactId><version>5.1.1</version></dependency>
调用demo
如果你第一次下载只想测试测试效果可以调用这个简易接口
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;System.out.println(ToAnalysis.parse(str));欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
补充:word分词器请参考:http://blog.csdn.net/xiaomin1991222/article/details/50981335
这篇关于java分词器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!