Java利用hanlp完成语句相似度分析的方法详解

2023-12-13 17:08

本文主要是介绍Java利用hanlp完成语句相似度分析的方法详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在做kaoshi系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并人工处理之。

下面介绍如何使用 Java 实现上述想法,完成语句相似度分析:

1 、使用 HanLP 完成分词:

首先,添加 HanLP 的依赖:( jsoup 是为了处理题干中的 html 标签,去除 html 标签得到纯文本的题干内容)

分词代码如下,需要处理 html 标签和标点符号:

private static List<String> getSplitWords(String sentence) {// 去除掉 html 标签sentence = Jsoup.parse(sentence.replace(" ","")).body().text();// 标点符号会被单独分为一个 Term ,去除之return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~ ! @# ¥…… &* ()—— |{} 【】‘;:”“ ' 。,、? ".contains(s)).collect(Collectors.toList());}

2 、合并分词结果,列出所有的词:

3 、统计词频,得到词频构成的向量:

代码如下,其中 allWords 是上一步中得到的所有的词, sentWords 是第一步中对单个句子的分词结果:

4 、计算相似度(两个向量的余弦值):

以上所有方法的完整代码如下,使用 SimilarityUtil.getSimilarity(String s1,String s2) 即可得到 s1 和 s2 的语句相似度:

package com.yuantu.dubbo.provider.questionRepo.utils;import com.hankcs.hanlp.HanLP;import com.hankcs.hanlp.dictionary.CustomDictionary;import org.jsoup.Jsoup;import java.util.ArrayList;import java.util.Calendar;import java.util.Collections;import java.util.List;import java.util.stream.Collectors;public class SimilarityUtil {static {CustomDictionary.add(" 子类 ");CustomDictionary.add(" 父类 ");}private SimilarityUtil() {}/*** 获得两个句子的相似度** @param sentence1* @param sentence2* @return*/public static double getSimilarity(String sentence1, String sentence2) {List<String> sent1Words = getSplitWords(sentence1);System.out.println(sent1Words);List<String> sent2Words = getSplitWords(sentence2);System.out.println(sent2Words);List<String> allWords = mergeList(sent1Words, sent2Words);int[] statistic1 = statistic(allWords, sent1Words);int[] statistic2 = statistic(allWords, sent2Words);double dividend = 0;double divisor1 = 0;double divisor2 = 0;for (int i = 0; i < statistic1.length; i++) {dividend += statistic1[i] * statistic2[i];divisor1 += Math.pow(statistic1[i], 2);divisor2 += Math.pow(statistic2[i], 2);}return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));}private static int[] statistic(List<String> allWords, List<String> sentWords) {int[] result = new int[allWords.size()];for (int i = 0; i < allWords.size(); i++) {result[i] = Collections.frequency(sentWords, allWords.get(i));}return result;}private static List<String> mergeList(List<String> list1, List<String> list2) {List<String> result = new ArrayList<>();result.addAll(list1);result.addAll(list2);return result.stream().distinct().collect(Collectors.toList());}private static List<String> getSplitWords(String sentence) {// 去除掉 html 标签sentence = Jsoup.parse(sentence.replace(" ","")).body().text();// 标点符号会被单独分为一个 Term ,去除之return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~ ! @# ¥…… &* ()—— |{} 【】‘;:”“ ' 。,、? ".contains(s)).collect(Collectors.toList());}}

原文链接:http://blog.itpub.net/31524777/viewspace-2636656/

这篇关于Java利用hanlp完成语句相似度分析的方法详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/489249

相关文章

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法