文本分析之关键词提取(TF-IDF算法)

2024-08-30 01:36

本文主要是介绍文本分析之关键词提取(TF-IDF算法),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

键词提取是自然语言处理中的一个重要步骤,可以帮助我们理解文本的主要内容。TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的关键词提取方法,它基于词频和逆文档频率的概念来确定词语的重要性。

准备工作

首先,我们需要准备一些工具和库,包括 Pandas、jieba(结巴分词)、sklearn 等。

  1. Pandas:用于数据处理。
  2. jieba:用于中文分词。
  3. sklearn:用于实现 TF-IDF 算法。
数据加载与预处理

我们将从多个文本文件中读取数据,并对其进行分词和停用词过滤。

import pandas as pd
import os
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
from sklearn.externals import joblib# 加载用户词典
jieba.load_userdict(r"红楼梦词库.txt")# 加载停用词
stopwords = set(pd.read_csv(r"StopwordsCN.txt", encoding='utf8')['stopword'].values.tolist())# 文件路径和内容列表
filePaths = []
fileContents = []# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(r"D:\PyCharm\PyCharmProjects\python_class\机器学习\10.TF-IDF\项目3\红楼梦\分卷"):for name in files:filePath = os.path.join(root, name)filePaths.append(filePath)with open(filePath, 'r', encoding='utf-8') as f:fileContent = f.read()fileContents.append(fileContent)# 将文件路径和内容添加到 DataFrame 中
corpos = pd.DataFrame({'filePath': filePaths,'fileContent': fileContents
})# 分词并去除停用词
def segment_text(text):return ' '.join([seg for seg in jieba.cut(text) if seg not in stopwords])# 应用分词函数
corpos['segmented'] = corpos['fileContent'].apply(segment_text)# 将分词结果保存到文件
with open(r'D:\PyCharm\PyCharmProjects\python_class\机器学习\10.TF-IDF\项目3\红楼梦\分词后汇总.txt', 'w', encoding='utf-8') as f:for segmented_text in corpos['segmented']:f.write(segmented_text + '\n')
TF-IDF 算法应用

接下来,我们将使用 TF-IDF 算法来提取关键词。

# 创建 TF-IDF 矢量化器
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=r"(?u)\b\w+\b")# 训练 TF-IDF 模型
tfidf_matrix = vectorizer.fit_transform(corpos['segmented'])# 获取词汇表
feature_names = vectorizer.get_feature_names_out()# 输出 TF-IDF 矩阵
print(tfidf_matrix.toarray())# 保存 TF-IDF 模型
joblib.dump(vectorizer, r"D:\PyCharm\PyCharmProjects\python_class\机器学习\10.TF-IDF\项目3\红楼梦\tfidf_model.pkl")
关键词提取

最后,我们可以从 TF-IDF 矩阵中提取出关键词。

def extract_keywords(tfidf_matrix, feature_names, top_n=10):# 获取每篇文档的 TF-IDF 值doc_ids = range(len(corpos))for i in doc_ids:# 获取每篇文档的 TF-IDF 值tfidf_scores = zip(feature_names, tfidf_matrix[i].toarray()[0])# 排序并获取前 N 个关键词sorted_tfidf_scores = sorted(tfidf_scores, key=lambda x: x[1], reverse=True)top_keywords = [term for term, score in sorted_tfidf_scores[:top_n]]yield top_keywords# 打印每篇文档的前 10 个关键词
for keywords in extract_keywords(tfidf_matrix, feature_names):print(keywords)

总结

通过以上步骤,我们成功地实现了从《红楼梦》分卷文本中提取关键词的功能。TF-IDF 算法结合中文分词和停用词过滤技术,能够有效地识别出文本中的重要词汇,这对于文本摘要、信息检索和文档分类等任务非常有用。

这篇关于文本分析之关键词提取(TF-IDF算法)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1119433

相关文章

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

python中Hash使用场景分析

《python中Hash使用场景分析》Python的hash()函数用于获取对象哈希值,常用于字典和集合,不可变类型可哈希,可变类型不可,常见算法包括除法、乘法、平方取中和随机数哈希,各有优缺点,需根... 目录python中的 Hash除法哈希算法乘法哈希算法平方取中法随机数哈希算法小结在Python中,

Java Stream的distinct去重原理分析

《JavaStream的distinct去重原理分析》Javastream中的distinct方法用于去除流中的重复元素,它返回一个包含过滤后唯一元素的新流,该方法会根据元素的hashcode和eq... 目录一、distinct 的基础用法与核心特性二、distinct 的底层实现原理1. 顺序流中的去重

关于MyISAM和InnoDB对比分析

《关于MyISAM和InnoDB对比分析》:本文主要介绍关于MyISAM和InnoDB对比分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录开篇:从交通规则看存储引擎选择理解存储引擎的基本概念技术原理对比1. 事务支持:ACID的守护者2. 锁机制:并发控制的艺

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取