结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词

本文主要是介绍结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Segment

Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。

变更日志

创作目的

分词是做 NLP 相关工作,非常基础的一项功能。

jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。

但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。

(1)有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。

(2)最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。

(3)对于中文繁体分词支持不友好。

所以重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。

而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。

Features 特点

  • 面向用户的极简静态 api 设计

  • 面向开发者 fluent-api 设计,让配置更加优雅灵活

  • 详细的中文代码注释,便于源码阅读

  • 基于 DFA 实现的高性能分词

  • 基于 HMM 的新词预测

  • 支持不同的分词模式

  • 支持全角半角/英文大小写/中文繁简体格式处理

  • 允许指定自定义词库

最新变更

  • 支持中文繁体分词

快速入门

准备

jdk1.7+

maven 3.x+

maven 引入

<dependency><groupId>com.github.houbb</groupId><artifactId>segment</artifactId><version>0.1.2</version>
</dependency>

相关代码参见 SegmentHelperTest.java

默认分词示例

返回分词,下标等信息。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";List<ISegmentResult> resultList = SegmentHelper.segment(string);
Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我爱[20,22), 北京[22,24), ,[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());

指定返回形式

有时候我们根据自己的应用场景,需要选择不同的返回形式。

SegmentResultHandlers 用来指定对于分词结果的处理实现,便于保证 api 的统一性。

方法实现说明
common()SegmentResultHandler默认实现,返回 ISegmentResult 列表
word()SegmentResultWordHandler只返回分词字符串列表

默认模式

默认分词形式,等价于下面的写法

List<ISegmentResult> resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());

只获取分词信息

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";List<String> resultList = SegmentHelper.segment(string, SegmentResultHandlers.word());
Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ,, 我爱, 北京, ,, 我爱, 学习, 。]", resultList.toString());

分词模式

分词模式简介

分词模式可以通过类 SegmentModes 工具类获取。

序号方法准确度性能备注
1search()一般结巴分词的默认模式
2dict()较高一般和 search 模式类似,但是缺少 HMM 新词预测
3index()一般尽可能多的返回词组信息,提高召回率
4greedyLength()一般贪心最大长度匹配,对准确度要求不高时可采用。

使用方式

针对灵活的配置,引入了 SegmentBs 作为引导类,解决工具类方法配置参数过多的问题。

测试代码参见 SegmentModeTest.java

search 模式

segmentMode() 指定分词模式,不指定时默认就是 SegmentModes.search()

final String string = "这是一个伸手不见五指的黑夜。";List<ISegmentResult> resultList = SegmentBs.newInstance().segmentMode(SegmentModes.search()).segment(string);Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

dict 模式

只依赖词库实现分词,没有 HMM 新词预测功能。

final String string = "这是一个伸手不见五指的黑夜。";List<ISegmentResult> resultList = SegmentBs.newInstance().segmentMode(SegmentModes.dict()).segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

index 模式

这里主要的区别就是会返回 伸手伸手不见 等其他词组。

final String string = "这是一个伸手不见五指的黑夜。";List<ISegmentResult> resultList = SegmentBs.newInstance().segmentMode(SegmentModes.index()).segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

GreedyLength 模式

这里使用贪心算法实现,准确率一般,性能较好。

final String string = "这是一个伸手不见五指的黑夜。";List<ISegmentResult> resultList = SegmentBs.newInstance().segmentMode(SegmentModes.greedyLength()).segment(string);
Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

格式化处理

格式化接口

可以通过 SegmentFormats 工具类获取对应的格式化实现,在分词时指定即可。

序号方法名称说明
1defaults()默认格式化等价于小写+半角处理。
2lowerCase()字符小写格式化英文字符处理时统一转换为小写
3halfWidth()字符半角格式化英文字符处理时统一转换为半角
4chineseSimple()中文简体格式化用于支持繁体中文分词
5none()无格式化无任何格式化处理
6chains(formats)格式化责任链你可以针对上述的格式化自由组合,同时允许自定义格式化。

默认格式化

全角半角+英文大小写格式化处理,默认开启。

这里的 为全角大写,默认会被转换处理。

String text = "阿Q精神";
List<ISegmentResult> segmentResults = SegmentHelper.segment(text);Assert.assertEquals("[阿Q[0,2), 精神[2,4)]", segmentResults.toString());

中文繁体分词

无论是结巴分词还是当前框架,默认对繁体中文的分词都不友好。

默认分词示例

显然和简体中文的分词形式不同。

String text = "這是一個伸手不見五指的黑夜";List<String> defaultWords = SegmentBs.newInstance().segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());

启用中文繁体分词

指定分词中文格式化,可以得到符合我们预期的分词。

String text = "這是一個伸手不見五指的黑夜";List<String> defaultWords = SegmentBs.newInstance().segmentFormat(SegmentFormats.chineseSimple()).segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

格式化责任链

格式化的形式可以有很多,我们可以根据自己的需求自由组合。

比如我们想同时启用默认格式化+中文简体格式化。

final String text = "阿Q,這是一個伸手不見五指的黑夜";List<String> defaultWords = SegmentBs.newInstance().segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(),SegmentFormats.chineseSimple())).segment(text, SegmentResultHandlers.word());
Assert.assertEquals("[阿Q, ,, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

Benchmark 性能对比

性能对比

性能对比基于 jieba 1.0.2 版本,测试条件保持一致,保证二者都做好预热,然后统一处理。

验证下来,默认模式性能略优于 jieba 分词,贪心模式是其性能 3 倍左右。

备注:

(1)默认模式和结巴 Search 模式一致。

后期考虑 HMM 也可以配置是否开启,暂定为默认开启

(2)后期将引入多线程提升性能。

代码参见 BenchmarkTest.java

性能对比图

相同长文本,循环 1W 次耗时。(Less is Better)

在这里插入图片描述

后期 Road-Map

核心特性

  • HMM 词性标注

  • HMM 实体标注

  • CRF 算法实现

  • N 元组算法实现

优化

  • 多线程的支持,性能优化

  • 双数组 DFA 实现,降低内存消耗

辅助特性

  • 拓展自定义词库的特性

创作感谢

感谢 jieba 分词提供的词库,以及 jieba-analysis 的相关实现。

这篇关于结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/259277

相关文章

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Java判断多个时间段是否重合的方法小结

《Java判断多个时间段是否重合的方法小结》这篇文章主要为大家详细介绍了Java中判断多个时间段是否重合的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录判断多个时间段是否有间隔判断时间段集合是否与某时间段重合判断多个时间段是否有间隔实体类内容public class D

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

Java中ArrayList和LinkedList有什么区别举例详解

《Java中ArrayList和LinkedList有什么区别举例详解》:本文主要介绍Java中ArrayList和LinkedList区别的相关资料,包括数据结构特性、核心操作性能、内存与GC影... 目录一、底层数据结构二、核心操作性能对比三、内存与 GC 影响四、扩容机制五、线程安全与并发方案六、工程

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.