优化TextRank文本摘要,自定义关键词增加句子的权重

本文主要是介绍优化TextRank文本摘要,自定义关键词增加句子的权重,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于textRank的原理,我这边就不多介绍了,搜一下很多,我也不确定自己是否讲的有那些大佬清楚,我们主要关注在优化点

痛点:

最近在做文章的摘要项目,一天的摘要量估计在300万篇左右,所以直接放弃了seq2seq的生成时摘要方法,主要还是使用深度学习,速度和精度都达不到要求了。采用textrank是一种解决办法

1. 目前使用FastTextRank, 速度上基本达到了要求,

github链接:https://github.com/ArtistScript/FastTextRank

2. 但是我们自己的项目中需求点还有一个,就是很相近的文章需要生成不同的摘要。由于我们自己的文章主要是介绍产品的,所以一篇文章中可能每段的侧重点都不一样,可能是不同的产品。

所以需要对FastTextRank 进行改进

 

改进点:

直接来看代码:

from FastTextRank.FastTextRank4Sentence import FastTextRank4Sentence
import timetext = """麻省理工学院的研究团队为无人机在仓库中使用RFID技术进行库存查找等工作,创造了一种聪明的新方式。它允许公司使用更小,更安全的无人机在巨型建筑物中找到之前无法找到的东西。
使用RFID标签更换仓库中的条形码,将帮助提升自动化并提高库存管理的准确性。与条形码不同,RFID标签不需要对准扫描,标签上包含的信息可以更广泛和更容易地更改。它们也可以很便宜,尽管有优点,但是它具有局限性,对于跟踪商品没有设定RFID标准,“标签冲突”可能会阻止读卡器同时从多个标签上拾取信号。扫描RFID标签的方式也会在大型仓库内引起尴尬的问题。固定的RFID阅读器和阅读器天线只能扫描通过设定阈值的标签,手持式读取器需要人员出去手动扫描物品。
几家公司已经解决了无人机读取RFID的技术问题。配有RFID读卡器的无人机可以代替库存盘点的人物,并以更少的麻烦更快地完成工作。一个人需要梯子或电梯进入的高箱,可以通过无人机很容易地达到,无人机可以被编程为独立地导航空间,并且他们比执行大规模的重复任务的准确性和效率要比人类更好。
目前市场上的RFID无人机需要庞大的读卡器才能连接到无人机的本身。这意味着它们必须足够大,以支持附加硬件的尺寸和重量,使其存在坠机风险。麻省理工学院的新解决方案,名为Rfly,允许无人机阅读RFID标签,而不用捆绑巨型读卡器。相反,无人机配备了一个微小的继电器,它像Wi-Fi中继器一样。无人机接收从远程RFID读取器发送的信号,然后转发它读取附近的标签。由于继电器很小,这意味着可以使用更小巧的无人机,可以使用塑料零件,可以适应较窄的空间,不会造成人身伤害的危险。
麻省理工学院的Rfly系统本质上是对现有技术的一个聪明的补充,它不仅消除了额外的RFID读取器,而且由于它是一个更轻的解决方案,允许小型无人机与大型无人机做同样的工作。研究团队正在马萨诸塞州的零售商测试该系统。
"""
key_words = ["无人机"]
mod = FastTextRank4Sentence(use_w2v=False, use_stopword=True,max_iter=100, tol=0.0001,stop_words_file="stopwords.txt")
print("加载完成")
old_time =time.time()
print(mod.summarize(text, 5, key_words))
print(time.time() - old_time)

FastTextRank 直接调用summarize()方法即可进行测试,我这边没有采用word2vec的方式,word2vec需要自己整理语料,前期先不做。

代码中有个变量就是key_words, 输入的是关键词的集合

然后在summarize()中传入

 

FastTextRank4Sentence.py:

def summarize(self,text,n, key_words):text = text.replace('\n', '')text = text.replace('\r', '')text = util.as_text(text)#处理编码问题tokens=util.cut_sentences(text)#sentences用于记录文章最原本的句子,sents用于各种计算操作sentences, sents=util.cut_filter_words(tokens,self.__stop_words,self.__use_stopword)# 改进,如果包含关键词,加大权重weigth_sentences = []for _sentence in sentences:k = 0.5for _key_word in key_words:if _key_word in _sentence:if len(_key_word) < len(sentences):k += len(sentences) // len(key_words)else:k += 1weigth_sentences.append(k)if self.__use_w2v:sents = self.filter_dictword(sents)graph = self.create_graph_sentence(sents,self.__use_w2v)scores = util.weight_map_rank(graph,self.__max_iter,self.__tol, weigth_sentences)sent_selected = nlargest(n, zip(scores, count()))sent_index = []for i in range(n):sent_index.append(sent_selected[i][1])  # 添加入关键词在原来文章中的下标return [sentences[i] for i in sent_index], sent_index

在summarize()方法中,先统计出关键词在句子中是否出现,出现一次初始权重加一次。添加的规则就是, 当句子中出现了一个关键词,权重 +  len(sentences)÷ len(key_words), sentences 表示分好的句子的集合

看图,在weight_map_rank() 中,我们将初始化好的权重传入

 

util.py:

 

def weight_map_rank(weight_graph,max_iter,tol, weigth_sentences):'''输入相似度的图(矩阵)返回各个句子的分数:param weight_graph::return:'''# 初始分数设置为0.5#初始化每个句子的分子和老分数# scores = [0.5 for _ in range(len(weight_graph))]scores= weigth_sentencesold_scores = [0.0 for _ in range(len(weight_graph))]denominator = caculate_degree(weight_graph)# 开始迭代count=0while different(scores, old_scores,tol):for i in range(len(weight_graph)):old_scores[i] = scores[i]#计算每个句子的分数for i in range(len(weight_graph)):scores[i] = calculate_score(weight_graph,denominator, i) + scores[i]count+=1if count>max_iter:breakreturn scores

主要改变有2个地方:

第一个地方在

我们将socres 的初始化使用我们自己的权重

 

第二个地方:

 

计算scores和的时候,将初始化的权重加上

 

OK。完成

思想很简单,改动也很简单,效果有待验证,欢迎大家指正。

这篇关于优化TextRank文本摘要,自定义关键词增加句子的权重的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120198

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

自定义类型:结构体(续)

目录 一. 结构体的内存对齐 1.1 为什么存在内存对齐? 1.2 修改默认对齐数 二. 结构体传参 三. 结构体实现位段 一. 结构体的内存对齐 在前面的文章里我们已经讲过一部分的内存对齐的知识,并举出了两个例子,我们再举出两个例子继续说明: struct S3{double a;int b;char c;};int mian(){printf("%zd\n",s

EMLOG程序单页友链和标签增加美化

单页友联效果图: 标签页面效果图: 源码介绍 EMLOG单页友情链接和TAG标签,友链单页文件代码main{width: 58%;是设置宽度 自己把设置成与您的网站宽度一样,如果自适应就填写100%,TAG文件不用修改 安装方法:把Links.php和tag.php上传到网站根目录即可,访问 域名/Links.php、域名/tag.php 所有模板适用,代码就不粘贴出来,已经打

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。