使用RAKE简单实现关键词提取

2024-04-06 03:04

本文主要是介绍使用RAKE简单实现关键词提取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 算法说明
  • 算法步骤
    • 提取可能的关键词
      • spacy处理文本
      • 注意:关键词不是token
    • 对关键词所含的每个token进行评分
    • 对于关键词进行评分计算和排序返回
  • 算法分析

算法说明

RAKE的全称叫做Rapid Automatic Keyword Extraction,是一个用来自动从文章中抽取关键词的简单的算法。它的思想是对文本进行切分得到可能的关键词,对于关键词中所含的token根据频率等角度进行评分,最后对于关键词进行评分返回评分最高的作为选择的关键词。

算法步骤

提取可能的关键词

第一步是需要把句子切分成为可能的关键词。一般使用停用词和标点进行切分。认为停用词和标点之间的内容就是可能的关键词。

spacy处理文本

在处理文本的时候,我们手动处理的效率和正确率都不一定准确,这个时候比较好的方式就是可以借用spacy库来处理。

import spacy
sentence = "today is a sunny day!"
nlp = spacy.load("en_core_web_sm", disable=['parse', 'ner'])
doc = nlp(sentence)

spacy会帮助我们对于句子进行tokenization, 并且有对于每个token,可以使用token.is_stop, token.is_punct的方式来去掉停用词或者标点符号。

想要查看包含的停用词有哪些?

stop_words = nlp.Defaults.stop_words
stop_words

注意:关键词不是token

我们用token处理但是不代表关键词就是token。关键词可能是多个token组成的

对关键词所含的每个token进行评分

第二步就是对于第一步抽取出来的每个关键词中包含的token进行评分,评分的公式为:

score ( t ) = deg ( t ) freq ( t ) \text{score}(t) = \frac{\text{deg}(t)}{\text{freq}(t)} score(t)=freq(t)deg(t)

其中freq(t)指的是某个token在文档中出现的总的次数,deg(t)指的是这个tokne和其他的token一起出现的次数。简单的解释就是,如果一共有两个关键词
key1和key2
key1中有token1, token2, token3, token4
key2中有token2, token6, token5
那么和token1一起出现的词的个数就是4个,和token2一起出现的词的个数就是4+3 = 7个

对于关键词进行评分计算和排序返回

在计算得到上述的评分之后,我们可以发现,其实这个评分是针对于token的,但是我们想要的其实是对于关键词的评分,计算的方式是将每个关键词中的token的得分进行加和就能得到最后的关键词的评分。最后将这个评分进行排序,选出评分较高的作为关键词。

算法分析

(1)优势
相比于TextRank的方法来说,RAKE的计算更快
Rose S, Engel D, Cramer N, et al. Automatic keyword extraction from individual documents[J]. Text mining: applications and theory, 2010: 1-20.

(2)劣势
当文本的停用词不全面的时候,输出的词可能是非常长并且不相关的
M. G. Thushara, T. Mownika and R. Mangamuru, “A Comparative Study on different Keyword Extraction Algorithms,” 2019 3rd International Conference on Computing Methodologies and Communication (ICCMC), Erode, India, 2019, pp. 969-973, doi: 10.1109/ICCMC.2019.8819630.

这篇关于使用RAKE简单实现关键词提取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/878844

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu2289(简单二分)

虽说是简单二分,但是我还是wa死了  题意:已知圆台的体积,求高度 首先要知道圆台体积怎么求:设上下底的半径分别为r1,r2,高为h,V = PI*(r1*r1+r1*r2+r2*r2)*h/3 然后以h进行二分 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#includ

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi