java调用Hanlp分词器获取词性;自定义词性字典

2024-01-06 19:52

本文主要是介绍java调用Hanlp分词器获取词性;自定义词性字典,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

若解读用户输入的一段话,找出输入内容的构成(名词、动词、形容词、地名、人名等)以便进一步的处理。

一、配置pom,导包:

   <dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.6.8</version></dependency>

二、java代码实现分词:

/**** hanlp分词* @param input*/public static Map<String, String> getOut(String input){Map<String, String> resMap = new HashMap<>();Segment segment = HanLP.newSegment(); //使用Hanlp分词List<Term> termList = segment.seg(input);//遍历分词结果for (Term term : termList) {String word = term.toString().substring(0, term.length()); //词String nature = term.toString().substring(term.length() + 1); //词性if (StringUtils.isNotBlank(word) && StringUtils.isNotBlank(nature)) {//将词及词性放到Map结果集中resMap.put(word, nature);}}return resMap;}public static void main(String[] args) {Map<String, String> out = getOut("我爱吃薯片,它是红薯油炸而来的,紫罗兰熊猫");System.out.println("out = " + out);}

运行结果:

out = {紫罗兰=n, 红薯=n, 它=rr, 的=ude1, 来=vf, 薯片=nf, ,=w, 而=cc, 是=vshi, 熊猫=n, 我=rr, 油炸=v, 爱吃=v}

对照hanlp的词性表,得到每个词的词性:

符号描述
a形容词
ad副形词
ag形容词性语素
al形容词性惯用语
an名形词
b区别词
begin仅用于始##始
bg区别语素
bl区别词性惯用语
c连词
cc并列连词
d副词
dg辄,俱,复之类的副词
dl连语
e叹词
end仅用于终##终
f方位词
g学术词汇
gb生物相关词汇
gbc生物类别
gc化学相关词汇
gg地理地质相关词汇
gi计算机相关词汇
gm数学相关词汇
gp物理相关词汇
h前缀
i成语
j简称略语
k后缀
l习用语
m数词
mg数语素
Mg甲乙丙丁之类的数词
mq数量词
n名词
nb生物名
nba动物名
nbc动物纲目
nbp植物名
nf食品,比如“薯片”
ng名词性语素
nh医药疾病等健康相关名词
nhd疾病
nhm药品
ni机构相关(不是独立机构名)
nic下属机构
nis机构后缀
nit教育相关机构
nl名词性惯用语
nm物品名
nmc化学品名
nn工作相关名词
nnd职业
nnt职务职称
nr人名
nr1复姓
nr2蒙古姓名
nrf音译人名
nrj日语人名
ns地名
nsf音译地名
nt机构团体名
ntc公司名
ntcb银行
ntcf工厂
ntch酒店宾馆
nth医院
nto政府机构
nts中小学
ntu大学
nx字母专名
nz其他专名
o拟声词
p介词
pba介词“把”
pbei介词“被”
q量词
qg量词语素
qt时量词
qv动量词
r代词
rg代词性语素
Rg古汉语代词性语素
rr人称代词
ry疑问代词
rys处所疑问代词
ryt时间疑问代词
ryv谓词性疑问代词
rz指示代词
rzs处所指示代词
rzt时间指示代词
rzv谓词性指示代词
s处所词
t时间词
tg时间词性语素
u助词
ud助词
ude1的 底
ude2
ude3
udeng等 等等 云云
udh的话
ug
uguo
uj助词
ul连词
ule了 喽
ulian连 (“连小学生都会”)
uls来讲 来说 而言 说来
usuo
uv连词
uyy一样 一般 似的 般
uz
uzhe
uzhi
v动词
vd副动词
vf趋向动词
vg动词性语素
vi不及物动词(内动词)
vl动词性惯用语
vn名动词
vshi动词“是”
vx形式动词
vyou动词“有”
w标点符号
wb百分号千分号,全角:% ‰ 半角:%
wd逗号,全角:, 半角:,
wf分号,全角:; 半角: ;
wh单位符号,全角:¥ $ £ ° ℃ 半角:$
wj句号,全角:。
wky右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wkz左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wm冒号,全角:: 半角: :
wn顿号,全角:、
wp破折号,全角:—— -- ——- 半角:— —-
ws省略号,全角:…… …
wt叹号,全角:!
ww问号,全角:?
wyy右引号,全角:” ’ 』
wyz左引号,全角:“ ‘ 『
x字符串
xu网址URL
xx非语素字
y语气词(delete yg)
yg语气语素
z状态词
zg状态词

三、到这基本的分词及词性已经获取到了,但是又发现这样得到的词性都是固定的,像我输入的这段话"请问怎么哪家公司有边缘计算相关的项目?"中,"边缘计算"被分成了"边缘"(n-名词)、"计算"(v-动词),但是业务需求是"边缘计算"属于某些项目的业务标签,定义在系统的字典表中,这时就要自定义hanlp的词性了。

查了一些文章,基本都是导入一个自定义的txt文件,文件中定义词及词性,但是我这里是通过maven引用的hanlp包,而且自定义的词性也不是固定的,而是从系统的字典表中动态读取的。于是有了以下代码:

/**** hanlp分词* @param input*/public static Map<String, String> getOut(String input){Map<String, String> resMap = new HashMap<>();//使用Hanlp分词;允许用户自定义词性字典Segment segment = HanLP.newSegment().enableCustomDictionary(true);//添加自定义词性(此处添加了一个词做测试;真实业务中是读取字典表中的词并添加到自定义词性)//其中"zingyidongwu"是自定义的词性CustomDictionary.add("紫罗兰熊猫","zingyidongwu");List<Term> termList = segment.seg(input);//遍历分词结果for (Term term : termList) {String word = term.toString().substring(0, term.length()); //词String nature = term.toString().substring(term.length() + 1); //词性if (StringUtils.isNotBlank(word) && StringUtils.isNotBlank(nature)) {//将词及词性放到Map结果集中resMap.put(word, nature);}}return resMap;}public static void main(String[] args) {Map<String, String> out = getOut("我爱吃薯片,它是红薯油炸而来的,紫罗兰熊猫");System.out.println("out = " + out);}

运行结果:

out = {紫罗兰熊猫=n, 红薯=n, 它=rr, 的=ude1, 来=vf, 薯片=nf, ,=w, 而=cc, 是=vshi, , 我=rr, 油炸=v, 爱吃=v}

可以看到,这次的分词结果中,"边缘计算"没有被拆分,而且词性也变成了自定义的"ywbq"词性。

这篇关于java调用Hanlp分词器获取词性;自定义词性字典的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/577427

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain