文本去重第一步:基于内容的文本相似性计算

2024-06-07 00:58

本文主要是介绍文本去重第一步:基于内容的文本相似性计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


为何要计算文档相似性

      在今年年初的时候,我开始尝试做文本的自动聚类,当时是从网上,找到的一个K-Means算法,稍作了修改。从测试结果来看,分类效果不太好,究其原因,我认为有两个,一个是词库的问题,停用词词库太小,没有噪音词库,也没有近义词词库,最关键的是切出来的词,统计的TFIDF权重不准确,第二个原因则是计算某文档与目标类别的相似度的算法不够合理。第一个问题经过两天多的尝试,于昨日解决了,剩下了第二个问题,真是让人头疼。
本来我已打算放一阵子的,但就在前几天Merry跟我讲了他文本去重的原理和一些细节问题,让我又重新燃起了希望。同时我也认为,计算文档相似度,不仅能够为去重提供重要依据,稍后也可以在文本分类/聚类上有所作为,于是,我打算抽一点点时间,去尝试一下。 

 

 

 

算法模型

 算法的模型,可以简单描述为:

1、加载与将要分析的文档无关的TFIDF词库、停用词库;
2、假设我们得到的是两篇正常的文档,首先切词,去除停用词;
3、抽取两篇文档中的公共词汇,计算它们的TFIDF权重和;
4、分别计算两篇文档的TFIDF权重,即每篇文档中所有词汇的TFIDF和;
5、使用公共词汇的权重分别对两篇文档的权重求模,并计算它们的乘积;
6、乘积即为两篇文档的相似度;

 

算法的理论依据是,TFIDF权重越高的词,其在文章中代表意义就越大,由此,假设我们拥有了一个标准的TFIDF词库,那么我们就可以在将文章分词后,将其向量化,并加权后虚拟成一个面积,两篇文章公共的部分,也可以虚拟成一个面积值,根据概率论的概率分布理论,公共部分在两个面积中出现的概率的乘积,即为二者的相似程度。

 

 

算法代码

 

 

Java代码   收藏代码
  1. /* 
  2.  * To change this template, choose Tools | Templates 
  3.  * and open the template in the editor. 
  4.  */  
  5. package cn.ysh.studio.text.cluster.main;  
  6.   
  7. import cn.ysh.studio.text.cluster.TFIDFHelper;  
  8. import cn.ysh.studio.text.cluster.core.Dictionary;  
  9. import cn.ysh.studio.text.cluster.core.Document;  
  10. import cn.ysh.studio.text.cluster.utils.FileHelper;  
  11. import java.io.File;  
  12. import java.io.FileNotFoundException;  
  13. import java.io.IOException;  
  14.   
  15. /** 
  16.  * 计算两篇文档的相似度 
  17.  * 
  18.  * @author 杨胜寒 
  19.  */  
  20. public class SimpleComputeSimilarity {  
  21.   
  22.     public static float repeatValue(Document doc1, Document doc2) {  
  23.         float keywordTFIDF = 0.0f;  
  24.         float doc1TFIDF = 0.0f;  
  25.         float doc2TFIDF = 0.0f;  
  26.         for (String word : doc1.getContentTerms().keySet()) {  
  27.             if (doc2.getContentTerms().containsKey(word)) {  
  28.                 keywordTFIDF += doc1.getContentTerms().get(word);  
  29.             }  
  30.             doc1TFIDF += doc1.getContentTerms().get(word);  
  31.         }  
  32.         for (String word : doc2.getContentTerms().keySet()) {  
  33.             doc2TFIDF += doc2.getContentTerms().get(word);  
  34.         }  
  35.         return (keywordTFIDF / doc1TFIDF) * (keywordTFIDF / doc2TFIDF);  
  36.     }  
  37.   
  38.     public static void main(String[] s) throws FileNotFoundException, IOException {  
  39. //        String docPath1 = "F:\\Workspaces\\NetBeansTest\\TextCluster\\txt\\洛阳空气质量差环保部门被批 环保局向市民道歉.txt";  
  40. //        String docPath2 = "F:\\Workspaces\\NetBeansTest\\TextCluster\\txt\\洛阳空气质量差环保局公开道歉 细说原因对策.txt";  
  41.         String docPath1 = "F:\\Workspaces\\NetBeansTest\\TextCluster\\txt\\英美媒体:美国暂时对南海争端避而远之.txt";  
  42.         String docPath2 = "F:\\Workspaces\\NetBeansTest\\TextCluster\\txt\\美媒:黄岩岛争端结束中国获胜 美只求自由通航.txt";  
  43.         Document doc1 = FileHelper.loadDocument(new File(docPath1));  
  44.         Document doc2 = FileHelper.loadDocument(new File(docPath2));  
  45.         Dictionary.getInstance().loadDictionary("F:\\Workspaces\\NetBeansTest\\TextCluster\\自由自在词典.dic");  
  46.         Dictionary.getInstance().loadStopDictionary("F:\\Workspaces\\NetBeansTest\\TextCluster\\txt\\stopwords.txt");  
  47.         long start = System.currentTimeMillis();  
  48.         TFIDFHelper.tfidf(new Document[]{doc1, doc2});  
  49.         float repeatValue = SimpleComputeSimilarity.repeatValue(doc1, doc2);  
  50.         long end = System.currentTimeMillis();  
  51.         System.out.println("相似值:" + repeatValue + ",用时[" + (end - start) + "]毫秒!");  
  52.     }  
  53. }  

 

 

测试结果截图:

 

 

 

 

测试中使用到两篇文档来自百度新闻,在附件中有,感兴趣的同学可以看一下内容,然后评判上述结果是否准确。

 

使用上述算法,对数据库中的18609篇新闻资讯进行相似度计算,输出相似度大于0.5的资讯的信息。截图如下:

 

 

 

 

算法优劣

 

相似度计算的算法极为简单,但是对依赖的词典要求很高,算法中使用的"自由自在词典.dic"是作者的另外一个工具根据爬虫收集的海量资讯信息抽取好统计出来的,包含了词汇及其TF、IDF权重值,旨在为分析器提供一个中立的、与被分析文档无关的TF/IDF权重词库。附件中顺便提供了一份小的词典样例,随着分析工具分析资讯信息的数量的不断增加,词库也将不断扩大。

 

 

个人总结

 

虽然目前来看,效果还可以,但是我认为还有以下几个方面应该改进:
1、扩大停用词库,增加噪音词库,降低无用词汇的干扰;
2、扩大TFIDF词库,同时标注词性,我认为特殊词性的词汇在不同场合应该特殊处理,如名词、动词和专用词汇在相似性计算中应该被加权;
3、增加近义词库和转换词库(比如美方=美国,华盛顿=美国,北京=中国,叙=叙利亚等等),据我预测,在多数场合中,合并近义词、转换词可以提高计算结果的精确度;

好吧,就先总结这么多吧,希望能够抛砖引玉,为大家提供一点思路。

 

原创文章,转载请注明出处:http://www.yshjava.cn/post/332.html

 

  • 测试语料.rar (3.5 KB)
  • 下载次数: 42
  • 自由自在词典.rar (1 MB)
  • 下载次数: 54
  • 查看图片附件

这篇关于文本去重第一步:基于内容的文本相似性计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1037729

相关文章

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

如何解决Pycharm编辑内容时有光标的问题

《如何解决Pycharm编辑内容时有光标的问题》文章介绍了如何在PyCharm中配置VimEmulator插件,包括检查插件是否已安装、下载插件以及安装IdeaVim插件的步骤... 目录Pycharm编辑内容时有光标1.如果Vim Emulator前面有对勾2.www.chinasem.cn如果tools工

C#比较两个List集合内容是否相同的几种方法

《C#比较两个List集合内容是否相同的几种方法》本文详细介绍了在C#中比较两个List集合内容是否相同的方法,包括非自定义类和自定义类的元素比较,对于非自定义类,可以使用SequenceEqual、... 目录 一、非自定义类的元素比较1. 使用 SequenceEqual 方法(顺序和内容都相等)2.

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu