词袋模型两个代码例子

2024-08-25 00:36

本文主要是介绍词袋模型两个代码例子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

代码1

import numpy as np
import pandas as pd
texts = ['i have a melon','you have a banana','you and i have a melon and a banana']vocabulary = list(enumerate(set([word for sentencein texts for word in sentence.split()])))
print('Vocabulary:', vocabulary)def vectorize(text):vector = np.zeros(len(vocabulary))for i, word in vocabulary:num = 0for w in text:if w == word:num += 1if num:vector[i] = numreturn vectorprint('Vectors:')
for sentence in texts:print(vectorize(sentence.split()))
Vocabulary: [(0, 'a'), (1, 'have'), (2, 'and'), (3, 'melon'), (4, 'banana'), (5, 'i'), (6, 'you')]
Vectors:
[1. 1. 0. 1. 0. 1. 0.]
[1. 1. 0. 0. 1. 0. 1.]
[2. 1. 2. 1. 1. 1. 1.]

代码2

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
texts = ['i have a melon','you have a banana','you and i have a melon and a banana']
# 将所有文本转换为小写
#texts = [text.lower() for text in texts]# 使用 CountVectorizer 来构建词汇表和向量化
# 把i和a这种一个字母的词也算在内用token_pattern=r'(?u)\b\w+\b'
count = CountVectorizer(token_pattern=r'(?u)\b\w+\b')bag = count.fit_transform(texts)print('Vocabulary:',count.vocabulary_)print('Vectors:')
print(bag.toarray())
Vocabulary: {'i': 4, 'have': 3, 'a': 0, 'melon': 5, 'you': 6, 'banana': 2, 'and': 1}
Vectors:
[[1 0 0 1 1 1 0][1 0 1 1 0 0 1][2 2 1 1 1 1 1]]

第一段代码手动构建了一个词汇表,并定义了一个 vectorize 函数来将文本转换为向量。这个函数统计每个单词在句子中出现的次数,并将结果存储在一个与词汇表长度相同的数组中。

第二段代码使用了 CountVectorizer 类,这是 scikit-learn 库提供的一个工具,用于将文本数据转换为词袋模型。CountVectorizer 自动构建一个词汇表,并且统计每个单词在文档中出现的次数。在 CountVectorizer 中,默认情况下,单个字母不会被当作单词来处理,因为它们通常被视为停用词。如果希望将单个字母也包括在内,可以通过设置 token_pattern 参数来实现。默认的 token_pattern'(?u)\b\w\w+\b',这意味着它将匹配边界之间的单词,且单词至少有两个字符长。在 CountVectorizer 中,词汇表(vocabulary_)是根据它首次出现在文档中的顺序来构建的,而不是按照字母顺序或出现频率。

这篇关于词袋模型两个代码例子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104055

相关文章

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

《SpringBoot3.4.3基于SpringWebFlux实现SSE功能(代码示例)》SpringBoot3.4.3结合SpringWebFlux实现SSE功能,为实时数据推送提供... 目录1. SSE 简介1.1 什么是 SSE?1.2 SSE 的优点1.3 适用场景2. Spring WebFlu

java之Objects.nonNull用法代码解读

《java之Objects.nonNull用法代码解读》:本文主要介绍java之Objects.nonNull用法代码,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录Java之Objects.nonwww.chinasem.cnNull用法代码Objects.nonN

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

在C#中调用Python代码的两种实现方式

《在C#中调用Python代码的两种实现方式》:本文主要介绍在C#中调用Python代码的两种实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#调用python代码的方式1. 使用 Python.NET2. 使用外部进程调用 Python 脚本总结C#调

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

C语言实现两个变量值交换的三种方式

《C语言实现两个变量值交换的三种方式》两个变量值的交换是编程中最常见的问题之一,以下将介绍三种变量的交换方式,其中第一种方式是最常用也是最实用的,后两种方式一般只在特殊限制下使用,需要的朋友可以参考下... 目录1.使用临时变量(推荐)2.相加和相减的方式(值较大时可能丢失数据)3.按位异或运算1.使用临时

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使