机器学习:TF-IDF算法原理及代码实现

2024-08-30 09:04

本文主要是介绍机器学习:TF-IDF算法原理及代码实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它的主要思想是:如果某个词语在一篇文章中出现的频率高(Term Frequency,TF),并且在其他文章中很少出现(Inverse Document Frequency,IDF),则认为这个词语具有很好的类别区分能力,对这篇文章的内容有很好的指示作用。

1. 词频(TF)

  • 定义:表示词条(关键字)在文档中出现的频率。
  • 计算公式
  • 目的:评估词条在文档中的重要性。

2. 逆文档频率(IDF)

  • 定义:表示词条的普遍重要性。
  • 计算公式
  • 目的:评估词条的稀有程度,降低常见词的权重。

3. TF-IDF

  • 定义:一个词条在一个文档中的重要性与它在语料库中的稀有程度的乘积。
  • 计算公式
  • 应用:通过计算文档中每个词条的TF-IDF值,可以评估词条对文档的区分能力。

4.优点:

  1. 简单性:TF-IDF算法易于理解和实现,不需要复杂的数学模型或机器学习技术。

  2. 有效性:在许多情况下,TF-IDF能够有效地捕捉文档中关键词的重要性,对于初步的文本分析和检索任务非常有效。

  3. 去噪能力:通过降低常见词的权重,TF-IDF减少了停用词和其他常见词对文本分析的影响。

  4. 无监督:TF-IDF不需要训练数据,可以应用于任何文本集合,无需事先标注。

  5. 多领域适用性:TF-IDF算法不依赖于特定领域的知识,因此可以应用于不同的领域和语料库。

  6. 可扩展性:TF-IDF可以应用于大规模文档集合,尽管计算和存储需求可能会随着文档数量的增加而增加。

5.缺点:

  1. 忽略词序:TF-IDF不考虑词条在文档中的位置或顺序,这可能会丢失一些语义信息。

  2. 对文档长度敏感:长文档可能会倾向于降低词条的权重,因为TF是基于词条出现次数的,而IDF与文档总数成反比。

  3. 无法捕捉同义词:TF-IDF无法识别意义相同或相近的不同词条,例如“汽车”和“轿车”可能被视为两个不同的词条。

  4. 无法处理多义词:TF-IDF不区分词条的不同含义,这可能导致在某些情况下权重分配不准确。

  5. 停用词处理:虽然TF-IDF降低了常见词的权重,但停用词的筛选需要预先进行,且不同的应用可能需要不同的停用词列表。

  6. 权重分配:TF-IDF的权重分配可能不是最优的,特别是在某些特定类型的文本分析任务中,可能需要更复杂的权重分配策略。

  7. 无法捕捉语义关系:TF-IDF不包含语义分析,无法捕捉词条之间的语义关系或上下文信息。

  8. 更新和维护成本:随着语料库的更新,TF-IDF模型需要重新计算,这可能在大规模数据集上是一个挑战。

6.代码实现

        1.数据预处理(task2_1.txt)

#打开文件task2_1.txt并读取所有行到列表cor。
import pandas as pd
infile=open(r"task2_1.txt","r")
cor=infile.readlines()

        2.导入TfidfVectorizer并初始化。

from sklearn.feature_extraction.text import TfidfVectorizer
tf=TfidfVectorizer()

        3.使用TfidfVectorizer将文本数据转换为TF-IDF矩阵。

tfidf=tf.fit_transform(cor)

        4.获取TF-IDF模型中的词汇表。

wordlist=tf.get_feature_names_out()

        5.创建一个DataFrame,其中词汇表作为索引,TF-IDF矩阵转置后的密集形式作为数据。

df=pd.DataFrame(tfidf.T.todense(),index=wordlist)

        6.遍历每篇文档,创建一个字典resdict来存储每篇文档中权重最高的词条。

for k in range(len(cor)):fea=df.iloc[:,k].to_list()resdict={}for i in range(0,len(wordlist)):if df.iloc[i,k]!= 0:  # 只考虑非零权重的词条resdict[wordlist[i]]=fea[i]# 按权重降序排序词条resdict=sorted(resdict.items(),key=lambda  x:x[1],reverse=True)print(resdict)

        7.完整代码

import pandas as pd
infile=open(r"task2_1.txt","r")
cor=infile.readlines()
# 初始化TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
tf=TfidfVectorizer()
# 转换文本数据为TF-IDF矩阵
tfidf=tf.fit_transform(cor)
# 获取词汇表
wordlist=tf.get_feature_names_out()
# 创建DataFrame,将词汇表作为行索引,原始文本数据作为列
df=pd.DataFrame(tfidf.T.todense(),index=wordlist)
for k in range(len(cor)):fea=df.iloc[:,k].to_list()resdict={}for i in range(0,len(wordlist)):if df.iloc[i,k]!= 0:resdict[wordlist[i]]=fea[i]resdict=sorted(resdict.items(),key=lambda  x:x[1],reverse=True)print(resdict)

这篇关于机器学习:TF-IDF算法原理及代码实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120378

相关文章

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

在Linux中改变echo输出颜色的实现方法

《在Linux中改变echo输出颜色的实现方法》在Linux系统的命令行环境下,为了使输出信息更加清晰、突出,便于用户快速识别和区分不同类型的信息,常常需要改变echo命令的输出颜色,所以本文给大家介... 目python录在linux中改变echo输出颜色的方法技术背景实现步骤使用ANSI转义码使用tpu

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU