【自然语言处理】BOW和TF-IDF详解

2023-12-05 16:40

本文主要是介绍【自然语言处理】BOW和TF-IDF详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BOW 和 TF-IDF 详解

机器无法处理原始形式的文本数据。我们需要将文本分解成一种易于机器阅读的数字格式(自然语言处理背后的理念!)。BOW 和 TF-IDF 都是帮助我们将文本句子转换为向量的技术。

我将用一个流行的例子来解释本文中的 Bag-of-Words(BOW)和 TF-IDF。

我们都喜欢看电影。在我决定看一部电影之前,我总是先看它的影评。我知道你们很多人也这么做!所以,我在这里用这个例子。以下是关于某部恐怖电影的评论示例:

  • 评论一:This movie is very scary and long.
  • 评论二:This movie is not scary and is slow.
  • 评论三:This movie is spooky and good.

你可以看到关于这部电影的一些对比评论,以及电影的长度和节奏。想象一下看一千篇这样的评论是多么枯燥。显然,我们可以从中汲取很多有趣的东西,并以此为基础来衡量电影的表现。

然而,正如我们在上面看到的,我们不能简单地把这些句子交给机器学习模型,让它告诉我们一篇评论是正面的还是负面的。我们需要执行某些文本预处理步骤。

BOW 和 TF-IDF 就是两个这样做的例子。让我们详细了解一下。

1.BOW

词袋(BOW)模型是数字文本表示的最简单形式。像单词本身一样,我们可以将一个句子表示为一个词包(一个数字串)。

让我们回顾一下我们之前看到的三种类型的电影评论:

  • 评论一:This movie is very scary and long.
  • 评论二:This movie is not scary and is slow.
  • 评论三:This movie is spooky and good.

我们将首先从以上三篇评论中所有的独特词汇中构建一个词汇表。词汇表由这 11 11 11 个单词组成:“This”、“movie”、“is”、“very”、“stear”、“and”、“long”、“not”、“slow”、“spooky”、“good”。

现在,我们可以将这些单词中的每一个用 1 1 1 0 0 0 标记在上面的三个电影评论中。这将为我们提供三个用于三个评论的向量:

在这里插入图片描述

  • 评论向量1:[1 1 1 1 1 1 1 0 0 0 0]
  • 评论向量2:[1 1 2 0 0 1 1 0 1 0 0]
  • 评论向量3:[1 1 1 0 0 0 1 0 0 1 1]

这就是词袋(BOW)模型背后的核心思想。

在上面的例子中,我们可以得到长度为 11 11 11 的向量。然而,当我们遇到新的句子时,我们开始面临一些问题:

  • 如果新句子包含新词,那么我们的词汇量就会增加,因此向量的长度也会增加。
  • 此外,向量还包含许多 0 0 0,从而产生稀疏矩阵(这是我们希望避免的)。
  • 我们没有保留任何关于句子语法和文本中单词顺序的信息。

2.TF-IDF

TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术。TF 是词频(Term Frequency),IDF 是逆文本频率指数(Inverse Document Frequency)。

评论 2 2 2: This movie is not scary and is slow.

T F ( ′ t h i s ′ ) = 评论 2 中出现 t h i s 的次数 评论 2 中的单词数 = 1 8 TF('this')=\frac{评论2中出现this的次数}{评论2中的单词数}=\frac{1}{8} TF(this)=评论2中的单词数评论2中出现this的次数=81

我们可以这样计算所有评论的词频:

在这里插入图片描述
我们可以计算评论 2 2 2 中所有单词的 IDF 值:

I D F ( ′ t h i s ′ ) = l o g 文档数 包含 t h i s 一词的文档数 = l o g 3 3 = l o g ( 1 ) = 0 IDF('this')=log\frac{文档数}{包含 this 一词的文档数}=log\frac{3}{3}=log(1)=0 IDF(this)=log包含this一词的文档数文档数=log33=log(1)=0

在这里插入图片描述
因此,我们看到 “is”、“this”、“and” 等词被降为0,代表重要性很小;而 “scary”、“long”、“good” 等词则更为重要,因而具有更高的权值。

我们现在可以计算语料库中每个单词的 TF-IDF 分数。分数越高的单词越重要,分数越低的单词越不重要: ( t f _ i d f ) t , d = t f t , d × i d f t (tf\_idf)_{t,d}=tf_{t,d}×idf_t (tf_idf)t,d=tft,d×idft T F − I D F ( ‘ t h i s ’ , R e v i e w 2 ) = T F ( ‘ t h i s ’ , R e v i e w 2 ) × I D F ( ‘ t h i s ’ ) = 1 8 × 0 = 0 TF-IDF(‘this’, Review 2) = TF(‘this’, Review 2)×IDF(‘this’) = \frac{1}{8}×0 = 0 TFIDF(this,Review2)=TF(this,Review2)×IDF(this)=81×0=0
在这里插入图片描述
我们现在已经获得了我们词汇的 TF-IDF 分数。TF-IDF 还为频率较低的单词提供较大的值,并且当 IDF 和 TF 值都较高时,该值较高。TF-IDF 分值高代表该单词在所有文档中都很少见,但在单个文档中很常见。

总结一下我们在文章中所讨论的内容:

  • 词袋只创建一组向量,其中包含文档中的单词出现次数,而 TF-IDF 模型还包含关于更重要的单词和不重要的单词的信息。
  • 词袋向量很容易解释。然而,在机器学习模型中,TF-IDF 通常表现得更好。

虽然 “BOW” 和 “TF-IDF” 在各自方面都很受欢迎,但在理解文字背景方面仍然存在空白。检测单词 “spooky” 和 “scary” 之间的相似性,或者将给定的文档翻译成另一种语言,需要更多关于文档的信息。

这就有关于 Word2Vec、CBOW、Skip-Gram 等词嵌入技术的由来。

这篇关于【自然语言处理】BOW和TF-IDF详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/458328

相关文章

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

MyBatis-Plus 中 nested() 与 and() 方法详解(最佳实践场景)

《MyBatis-Plus中nested()与and()方法详解(最佳实践场景)》在MyBatis-Plus的条件构造器中,nested()和and()都是用于构建复杂查询条件的关键方法,但... 目录MyBATis-Plus 中nested()与and()方法详解一、核心区别对比二、方法详解1.and()

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

Java内存分配与JVM参数详解(推荐)

《Java内存分配与JVM参数详解(推荐)》本文详解JVM内存结构与参数调整,涵盖堆分代、元空间、GC选择及优化策略,帮助开发者提升性能、避免内存泄漏,本文给大家介绍Java内存分配与JVM参数详解,... 目录引言JVM内存结构JVM参数概述堆内存分配年轻代与老年代调整堆内存大小调整年轻代与老年代比例元空