Java实现汉字拼音转换和关键字分词(pinyin4j、hanlp)

2024-01-05 12:36

本文主要是介绍Java实现汉字拼音转换和关键字分词(pinyin4j、hanlp),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • pinyin4j
  • hanlp
  • 关键字分词

pinyin4j

  1. 添加maven依赖
<dependency><groupId>com.belerweb</groupId><artifactId>pinyin4j</artifactId><version>2.5.0</version>
</dependency>
  1. 获取文本拼音
 /*** 获取文本拼音* @param context 文本内容* @param existNotPinyin 是否保存非汉字* @return String 拼音*/
private String pinyinTest(String context, boolean existNotPinyin) {if (context == null || context.trim().length() <= 0) {return null;}//设置格式HanyuPinyinOutputFormat outputFormat = new HanyuPinyinOutputFormat();//WITHOUT_TONE 不带音标、WITH_TONE_NUMBER 带数字音标、WITH_TONE_MARK 带符号音标outputFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);char[] chars = context.trim().toCharArray();StringBuilder builder = new StringBuilder();try {for (char aChar : chars) {String[] pinyin = PinyinHelper.toHanyuPinyinStringArray(aChar, outputFormat);//不是汉字会返回nullif (pinyin == null || pinyin.length <= 0) {if (existNotPinyin) {builder.append(aChar);}continue;}//多音字的情况取第一个(也可以全取)builder.append(pinyin[0]);}} catch (BadHanyuPinyinOutputFormatCombination e) {e.printStackTrace();}return builder.toString().toUpperCase();}
  1. 测试用例
@Test
public void test() {String temp = "我爱罗52";String list = pinyinTest(temp, false); //WOAILUO
}

hanlp

  1. 添加Maven依赖
<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.8.4</version>
</dependency>
  1. 获取文本拼音
 /*** 获取文本拼音* @param context 文本内容* @param existNotPinyin 是否保存非汉字* @return String 拼音*/
private String hanLpTest(String content, Boolean existNotPinyin) {if (context == null || context.trim().length() <= 0) {return null;}if (existNotPinyin) {return HanLP.convertToPinyinString(content, "", false).toUpperCase();}List<Pinyin> pinyinList = HanLP.convertToPinyinList(content);StringBuilder builder = new StringBuilder();pinyinList.forEach(pinyin -> {if (pinyin == null || Pinyin.none5.equals(pinyin)) {return;}builder.append(pinyin.getPinyinWithoutTone());});return builder.toString().toUpperCase();
}
  1. 测试用例
@Test
public void test() {String temp = "我爱罗52";System.out.println(hanLpTest(temp, true)); //WOAILUO52
}

关键字分词

  1. 正则表达式
/*** 分词正则表达式*/
private final String SPLIT_WORD_REG_EX = "[^aoeiuv]?h?[iuv]?(ai|ei|ao|ou|er|ang?|eng?|ong|a|o|e|i|u|ng|n)?";
  1. 获取分词结果
/*** 关键字分词* @param keyword 关键字* @return List<String> 分词列表*/
private List<String> splitTest(String keyword) {if (context == null || context.trim().length() <= 0) {return Collections.emptyList();}List<String> keywordList = new ArrayList<>();int index = 0;Pattern pat = Pattern.compile(SPLIT_WORD_REG_EX);for (int i = keyword.length(); i > 0; i = i - index) {Matcher matcher = pat.matcher(keyword);if (!matcher.find()) {break;}keywordList.add(matcher.group());index = matcher.end() - matcher.start();keyword = keyword.substring(index);}return keywordList;
}
  1. 测试用例
 @Testpublic void test() {String temp = "我爱罗52";List<String> list = splitTest(temp);System.out.println(list); //[我, 爱, 罗, 5, 2]}

这篇关于Java实现汉字拼音转换和关键字分词(pinyin4j、hanlp)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/572889

相关文章

SpringBoot整合liteflow的详细过程

《SpringBoot整合liteflow的详细过程》:本文主要介绍SpringBoot整合liteflow的详细过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋...  liteflow 是什么? 能做什么?总之一句话:能帮你规范写代码逻辑 ,编排并解耦业务逻辑,代码

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta

Spring Security中用户名和密码的验证完整流程

《SpringSecurity中用户名和密码的验证完整流程》本文给大家介绍SpringSecurity中用户名和密码的验证完整流程,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定... 首先创建了一个UsernamePasswordAuthenticationTChina编程oken对象,这是S

java实现docker镜像上传到harbor仓库的方式

《java实现docker镜像上传到harbor仓库的方式》:本文主要介绍java实现docker镜像上传到harbor仓库的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 前 言2. 编写工具类2.1 引入依赖包2.2 使用当前服务器的docker环境推送镜像2.2

C++20管道运算符的实现示例

《C++20管道运算符的实现示例》本文简要介绍C++20管道运算符的使用与实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录标准库的管道运算符使用自己实现类似的管道运算符我们不打算介绍太多,因为它实际属于c++20最为重要的

Java easyExcel实现导入多sheet的Excel

《JavaeasyExcel实现导入多sheet的Excel》这篇文章主要为大家详细介绍了如何使用JavaeasyExcel实现导入多sheet的Excel,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录1.官网2.Excel样式3.代码1.官网easyExcel官网2.Excel样式3.代码

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是