词袋模型两个代码例子

2024-08-25 00:36

本文主要是介绍词袋模型两个代码例子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

代码1

import numpy as np
import pandas as pd
texts = ['i have a melon','you have a banana','you and i have a melon and a banana']vocabulary = list(enumerate(set([word for sentencein texts for word in sentence.split()])))
print('Vocabulary:', vocabulary)def vectorize(text):vector = np.zeros(len(vocabulary))for i, word in vocabulary:num = 0for w in text:if w == word:num += 1if num:vector[i] = numreturn vectorprint('Vectors:')
for sentence in texts:print(vectorize(sentence.split()))
Vocabulary: [(0, 'a'), (1, 'have'), (2, 'and'), (3, 'melon'), (4, 'banana'), (5, 'i'), (6, 'you')]
Vectors:
[1. 1. 0. 1. 0. 1. 0.]
[1. 1. 0. 0. 1. 0. 1.]
[2. 1. 2. 1. 1. 1. 1.]

代码2

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
texts = ['i have a melon','you have a banana','you and i have a melon and a banana']
# 将所有文本转换为小写
#texts = [text.lower() for text in texts]# 使用 CountVectorizer 来构建词汇表和向量化
# 把i和a这种一个字母的词也算在内用token_pattern=r'(?u)\b\w+\b'
count = CountVectorizer(token_pattern=r'(?u)\b\w+\b')bag = count.fit_transform(texts)print('Vocabulary:',count.vocabulary_)print('Vectors:')
print(bag.toarray())
Vocabulary: {'i': 4, 'have': 3, 'a': 0, 'melon': 5, 'you': 6, 'banana': 2, 'and': 1}
Vectors:
[[1 0 0 1 1 1 0][1 0 1 1 0 0 1][2 2 1 1 1 1 1]]

第一段代码手动构建了一个词汇表,并定义了一个 vectorize 函数来将文本转换为向量。这个函数统计每个单词在句子中出现的次数,并将结果存储在一个与词汇表长度相同的数组中。

第二段代码使用了 CountVectorizer 类,这是 scikit-learn 库提供的一个工具,用于将文本数据转换为词袋模型。CountVectorizer 自动构建一个词汇表,并且统计每个单词在文档中出现的次数。在 CountVectorizer 中,默认情况下,单个字母不会被当作单词来处理,因为它们通常被视为停用词。如果希望将单个字母也包括在内,可以通过设置 token_pattern 参数来实现。默认的 token_pattern'(?u)\b\w\w+\b',这意味着它将匹配边界之间的单词,且单词至少有两个字符长。在 CountVectorizer 中,词汇表(vocabulary_)是根据它首次出现在文档中的顺序来构建的,而不是按照字母顺序或出现频率。

这篇关于词袋模型两个代码例子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104055

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一

在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码

《在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码》在MyBatis的XML映射文件中,trim元素用于动态添加SQL语句的一部分,处理前缀、后缀及多余的逗号或连接符,示... 在MyBATis的XML映射文件中,<trim>元素用于动态地添加SQL语句的一部分,例如SET或W

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

python多进程实现数据共享的示例代码

《python多进程实现数据共享的示例代码》本文介绍了Python中多进程实现数据共享的方法,包括使用multiprocessing模块和manager模块这两种方法,具有一定的参考价值,感兴趣的可以... 目录背景进程、进程创建进程间通信 进程间共享数据共享list实践背景 安卓ui自动化框架,使用的是

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

SpringCloud集成AlloyDB的示例代码

《SpringCloud集成AlloyDB的示例代码》AlloyDB是GoogleCloud提供的一种高度可扩展、强性能的关系型数据库服务,它兼容PostgreSQL,并提供了更快的查询性能... 目录1.AlloyDBjavascript是什么?AlloyDB 的工作原理2.搭建测试环境3.代码工程1.

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Java中ArrayList的8种浅拷贝方式示例代码

《Java中ArrayList的8种浅拷贝方式示例代码》:本文主要介绍Java中ArrayList的8种浅拷贝方式的相关资料,讲解了Java中ArrayList的浅拷贝概念,并详细分享了八种实现浅... 目录引言什么是浅拷贝?ArrayList 浅拷贝的重要性方法一:使用构造函数方法二:使用 addAll(