HanLP Java 配置和初步使用

2023-10-13 11:59
文章标签 java 配置 使用 初步 hanlp

本文主要是介绍HanLP Java 配置和初步使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

HanLP Java IDEA配置和初步使用

  • HanLP介绍
  • HanLP安装(Java)
    • 方式一:Maven仓库
    • 方式二:自行下载jar、data、hanlp.properties。
  • HanLP初步使用
    • NLP分词初体验

HanLP介绍

HanLP是一款面向生产环境的自然语言处理工具包。
具有的功能如下:
中文分词 词性标注 命名实体识别 依存句法分析 语义依存分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁 自然语言处理
【官方地址】http://hanlp.com
【GitHub地址】https://github.com/hankcs/HanLP

HanLP安装(Java)

本文章着重对HanLP的Java项目的安装进行讲解。

如果你想在Java项目中使用HanLP,那么现在还不能体验到HanLP2.0版本(20200208),现在只能安装在1.X分支(https://github.com/hankcs/HanLP/tree/1.x)。

安装方法有两种:

方式一:Maven仓库

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.6</version>
</dependency>

零配置,即可使用基本功能(除由字构词、依存句法分析外的全部功能)。

对于分词来说,StandardTokenizer标准分词器可用,但是NLPTokenizer分词器会出错,需要data包。

本方法同样支持hanlp.properties(方式二中),也就是可配置data,无需手动引入jar包

方式二:自行下载jar、data、hanlp.properties。

  1. 下载
    data.zip
    hanlp-release.zip

  2. data.zip包含dictionary和mode两个文件夹。
    lhanlp-release.zip包含hanlp-1.7.6.jar、hanlp-1.7.6-sources.jar以及最重要的hanlp.properties。
    解压data.zip得到data文件夹。

  3. 将data文件夹、hanlp.properties移动到java项目中,这里我移动到了resources中,具体路径:

src/main/resources
  1. 修改hanlp.properties中的root路径(data的父目录):
root=./src/main/resources
  1. 引入jar包(如果同时使用了方式一就不需要这一步),这里自行百度,不同IDE方式不同。

HanLP初步使用

NLP分词初体验

package com.hankcs.demo;import com.hankcs.hanlp.tokenizer.NLPTokenizer;
import com.hankcs.hanlp.utility.TestUtility;public class DemoNLPSegment extends TestUtility
{public static void main(String[] args){NLPTokenizer.ANALYZER.enableCustomDictionary(false); // 不用词典照样分词。System.out.println(NLPTokenizer.segment("在我国,春季田间管理的重点是夏季粮油作物,主要是冬小麦和油菜,产量超过全年粮食产量的五分之一。"));NLPTokenizer.ANALYZER.enableCustomDictionary(true); // 使用用词典分词。System.out.println(NLPTokenizer.segment("在我国,春季田间管理的重点是夏季粮油作物,主要是冬小麦和油菜,产量超过全年粮食产量的五分之一。"));System.out.println(NLPTokenizer.analyze("我救的不是他,是多年前一个寒夜里,在篝火与烈酒中,想仗剑江湖的少年。").translateLabels());
//        result.setData(JSON.toJSON(segmentList));}
}

输出结果:

[在/p, 我国/n, ,/w, 春季/t, 田间管理/l, 的/u, 重点/n, 是/v, 夏季/t, 粮油/j, 作物/n, ,/w, 主要/d, 是/v, 冬小麦/n, 和/c, 油菜/n, ,/w, 产量/n, 超过/v, 全年/n, 粮食/n, 产量/n, 的/u, 五分之一/m, 。/w]
[在/p, 我国/n, ,/w, 春季/t, 田间管理/l, 的/u, 重点/n, 是/v, 夏季/t, 粮油/j, 作物/n, ,/w, 主要/d, 是/v, 冬小麦/n, 和/c, 油菜/n, ,/w, 产量/n, 超过/v, 全年/n, 粮食产量/nz, 的/u, 五分之一/m, 。/w]
我/代词 救/动词 的/助词 不是/成语 他/代词 ,/标点符号 是/动词 多年前/数词 一个/数词 寒夜/名词 里/方位词 ,/标点符号 在/介词 篝火/名词 与/介词 烈酒/名词 中/方位词 ,/标点符号 想/动词 仗剑/动词 江湖/名词 的/助词 少年/名词 。/标点符号

从结果可以看出,使用词典的NLP分词(如果没配置data会出错)将“粮食产量”识别为一个词,不使用词典则分为“粮食”“产量”两个词。

更多实例请移步【官方GitHub-Demo】

这篇关于HanLP Java 配置和初步使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/203067

相关文章

vue使用docxtemplater导出word

《vue使用docxtemplater导出word》docxtemplater是一种邮件合并工具,以编程方式使用并处理条件、循环,并且可以扩展以插入任何内容,下面我们来看看如何使用docxtempl... 目录docxtemplatervue使用docxtemplater导出word安装常用语法 封装导出方

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J