gensim similarity计算文档相似度

2024-06-18 03:38

文章标签 文档计算 similarity 相似 gensim

本文主要是介绍gensim similarity计算文档相似度，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

向量空间模型计算文档集合相似性。[0]
将原始输入的词转换为ID，词的id表示法简单易用，但是无法预测未登记词，难以挖掘词关系；词汇鸿沟[1]:任意两个词之间是独立的，无法通过词的ID来判断词语之间的关系，无法通过词的id判断词语之间的关系[2]

使用gensim包的models,corpora,similarities，对文档进行相似度计算，结果比较其他lda、doc2vec方法稳定。
主要步骤：

1.建立语料库，os.walk方法遍历文件夹中的文件
2.使用分词工具(jieba)进行分词、停用词过滤
3.使用corpora.Dictionary()生成字典，该方法把所有单词取一个set，并对set中每一个单词分配一个id号的map
4.dictionary.doc2bow()方法把文档用稀疏向量表示。
5.similarities.Similarity()方法计算相似度
6.构造训练数据和测试数据
7.similarity[test_corpus]返回相似度最高的similarity.num_best 个文档。
具体参考示例：https://github.com/iamxiaomu/docsim

借鉴
http://blog.itpub.net/16582684/viewspace-1253901/

这篇关于gensim similarity计算文档相似度的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1071202。 23002807@qq.com

相关文章

使用C#代码在PDF文档中添加、删除和替换图片

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

阅读更多...

详解C#如何提取PDF文档中的图片

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片，如艺术画作、设计素材、报告图表等，提取图片可以将这些图像资源进行单独保存，方便后续在不同的项目中使

阅读更多...

Python实现合并与拆分多个PDF文档中的指定页

Python实现合并与拆分多个PDF文档中的指定页

《Python实现合并与拆分多个PDF文档中的指定页》这篇文章主要为大家详细介绍了如何使用Python实现将多个PDF文档中的指定页合并生成新的PDF以及拆分PDF,感兴趣的小伙伴可以参考一下... 安装所需要的库pip install PyPDF2 -i https://pypi.tuna.tsingh

阅读更多...

Python批量调整Word文档中的字体、段落间距及格式

Python批量调整Word文档中的字体、段落间距及格式

《Python批量调整Word文档中的字体、段落间距及格式》这篇文章主要为大家详细介绍了如何使用Python的docx库来批量处理Word文档,包括设置首行缩进、字体、字号、行间距、段落对齐方式等,需... 目录关键代码一级标题设置正文设置完整代码运行结果最近关于批处理格式的问题我查了很多资料，但是都没

阅读更多...

Python自动化Office文档处理全攻略

Python自动化Office文档处理全攻略

《Python自动化Office文档处理全攻略》在日常办公中,处理Word、Excel和PDF等Office文档是再常见不过的任务,手动操作这些文档不仅耗时耗力,还容易出错,幸运的是,Python提供... 目录一、自动化处理Word文档1. 安装python-docx库2. 读取Word文档内容3. 修改

阅读更多...

使用Python快速实现链接转word文档

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

阅读更多...

Python如何计算两个不同类型列表的相似度

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

阅读更多...

浅析如何使用Swagger生成带权限控制的API文档

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里，API

阅读更多...

使用C#代码计算数学表达式实例

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长，因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

阅读更多...

SpringBoot3集成swagger文档的使用方法

SpringBoot3集成swagger文档的使用方法

《SpringBoot3集成swagger文档的使用方法》本文介绍了Swagger的诞生背景、主要功能以及如何在SpringBoot3中集成Swagger文档,Swagger可以帮助自动生成API文档... 目录一、前言1. API 文档自动生成2. 交互式 API 测试3. API 设计和开发协作二、使用

阅读更多...