Java利用hanlp完成语句相似度分析的方法详解

2023-12-13 17:08

本文主要是介绍Java利用hanlp完成语句相似度分析的方法详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在做kaoshi系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并人工处理之。

下面介绍如何使用 Java 实现上述想法,完成语句相似度分析:

1 、使用 HanLP 完成分词:

首先,添加 HanLP 的依赖:( jsoup 是为了处理题干中的 html 标签,去除 html 标签得到纯文本的题干内容)

分词代码如下,需要处理 html 标签和标点符号:

private static List<String> getSplitWords(String sentence) {// 去除掉 html 标签sentence = Jsoup.parse(sentence.replace(" ","")).body().text();// 标点符号会被单独分为一个 Term ,去除之return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~ ! @# ¥…… &* ()—— |{} 【】‘;:”“ ' 。,、? ".contains(s)).collect(Collectors.toList());}

2 、合并分词结果,列出所有的词:

3 、统计词频,得到词频构成的向量:

代码如下,其中 allWords 是上一步中得到的所有的词, sentWords 是第一步中对单个句子的分词结果:

4 、计算相似度(两个向量的余弦值):

以上所有方法的完整代码如下,使用 SimilarityUtil.getSimilarity(String s1,String s2) 即可得到 s1 和 s2 的语句相似度:

package com.yuantu.dubbo.provider.questionRepo.utils;import com.hankcs.hanlp.HanLP;import com.hankcs.hanlp.dictionary.CustomDictionary;import org.jsoup.Jsoup;import java.util.ArrayList;import java.util.Calendar;import java.util.Collections;import java.util.List;import java.util.stream.Collectors;public class SimilarityUtil {static {CustomDictionary.add(" 子类 ");CustomDictionary.add(" 父类 ");}private SimilarityUtil() {}/*** 获得两个句子的相似度** @param sentence1* @param sentence2* @return*/public static double getSimilarity(String sentence1, String sentence2) {List<String> sent1Words = getSplitWords(sentence1);System.out.println(sent1Words);List<String> sent2Words = getSplitWords(sentence2);System.out.println(sent2Words);List<String> allWords = mergeList(sent1Words, sent2Words);int[] statistic1 = statistic(allWords, sent1Words);int[] statistic2 = statistic(allWords, sent2Words);double dividend = 0;double divisor1 = 0;double divisor2 = 0;for (int i = 0; i < statistic1.length; i++) {dividend += statistic1[i] * statistic2[i];divisor1 += Math.pow(statistic1[i], 2);divisor2 += Math.pow(statistic2[i], 2);}return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));}private static int[] statistic(List<String> allWords, List<String> sentWords) {int[] result = new int[allWords.size()];for (int i = 0; i < allWords.size(); i++) {result[i] = Collections.frequency(sentWords, allWords.get(i));}return result;}private static List<String> mergeList(List<String> list1, List<String> list2) {List<String> result = new ArrayList<>();result.addAll(list1);result.addAll(list2);return result.stream().distinct().collect(Collectors.toList());}private static List<String> getSplitWords(String sentence) {// 去除掉 html 标签sentence = Jsoup.parse(sentence.replace(" ","")).body().text();// 标点符号会被单独分为一个 Term ,去除之return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~ ! @# ¥…… &* ()—— |{} 【】‘;:”“ ' 。,、? ".contains(s)).collect(Collectors.toList());}}

原文链接:http://blog.itpub.net/31524777/viewspace-2636656/

这篇关于Java利用hanlp完成语句相似度分析的方法详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/489248

相关文章

HTML5的input标签的`type`属性值详解和代码示例

《HTML5的input标签的`type`属性值详解和代码示例》HTML5的`input`标签提供了多种`type`属性值,用于创建不同类型的输入控件,满足用户输入的多样化需求,从文本输入、密码输入、... 目录一、引言二、文本类输入类型2.1 text2.2 password2.3 textarea(严格

SpringBoot简单整合ElasticSearch实践

《SpringBoot简单整合ElasticSearch实践》Elasticsearch支持结构化和非结构化数据检索,通过索引创建和倒排索引文档,提高搜索效率,它基于Lucene封装,分为索引库、类型... 目录一:ElasticSearch支持对结构化和非结构化的数据进行检索二:ES的核心概念Index:

检查 Nginx 是否启动的几种方法

《检查Nginx是否启动的几种方法》本文主要介绍了检查Nginx是否启动的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1. 使用 systemctl 命令(推荐)2. 使用 service 命令3. 检查进程是否存在4

C++ move 的作用详解及陷阱最佳实践

《C++move的作用详解及陷阱最佳实践》文章详细介绍了C++中的`std::move`函数的作用,包括为什么需要它、它的本质、典型使用场景、以及一些常见陷阱和最佳实践,感兴趣的朋友跟随小编一起看... 目录C++ move 的作用详解一、一句话总结二、为什么需要 move?C++98/03 的痛点⚡C++

Java方法重载与重写之同名方法的双面魔法(最新整理)

《Java方法重载与重写之同名方法的双面魔法(最新整理)》文章介绍了Java中的方法重载Overloading和方法重写Overriding的区别联系,方法重载是指在同一个类中,允许存在多个方法名相同... 目录Java方法重载与重写:同名方法的双面魔法方法重载(Overloading):同门师兄弟的不同绝

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

MySQL中between and的基本用法、范围查询示例详解

《MySQL中betweenand的基本用法、范围查询示例详解》BETWEENAND操作符在MySQL中用于选择在两个值之间的数据,包括边界值,它支持数值和日期类型,示例展示了如何使用BETWEEN... 目录一、between and语法二、使用示例2.1、betwphpeen and数值查询2.2、be

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Spring配置扩展之JavaConfig的使用小结

《Spring配置扩展之JavaConfig的使用小结》JavaConfig是Spring框架中基于纯Java代码的配置方式,用于替代传统的XML配置,通过注解(如@Bean)定义Spring容器的组... 目录JavaConfig 的概念什么是JavaConfig?为什么使用 JavaConfig?Jav

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配