Python人工智能应用---中文分词词频统计

2024-04-05 06:44

本文主要是介绍Python人工智能应用---中文分词词频统计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1.中文分词

2.循环分别处理列表

(1)分析

(2)代码解决

3.词袋模型的构建

(1)分析需求

(2)处理分析

1.先实现字符串的连接

2.字符串放到新的列表里面

4.提取高频词语

(1)STEP1. 导入模块

(2)STEP2. 创建CountVectorizer对象

(3)STEP3. 使用fit_transform()函数构造词袋模型

(4)STEP4. 使用get_feature_names()提取关键词


1.中文分词

jieba模块是处理中文分词还不错的一种方法,我们需要在自己的终端进行导入;

jieba模块里面含有许多的函数,我们使用lcut()函数,这个函数的参数就是我们要处理的文本内容,把字符串传进去以后,函数会返回列表;

分词上面的英文是jieba模块创建分词模型的过程,

模型创建成功之后,就会以列表的形式返回

2.循环分别处理列表

(1)分析

我们前面已经把评价的内容以列表的形式放到了data这个变量里面,我们进行中文分词的时候,需要取出每个评论进行分词统计,而评论是data里面的小列表的第一个元素,我们可以使用for循环,对里面的每个列表的第一个元素---评论进行分词处理;

(2)代码解决

 这个地方文件打开的时候会遇到各种问题,我们可以查阅资料解决,例如编码的方式,范围,忽略,转义字符等等;

open里面的文件路径一定是自己的电脑的文件路径,不可以直接进行复制;

# 导入csv模块
import csv# 使用open()函数打开数据集
file = open("C:\\Users\\32585\\Desktop\\yequ\\TVComments.csv","r",encoding='gb18030',errors="ignore")
# 使用csv.reader()函数读取数据集
reader = csv.reader(file)# 创建一个空列表data
data = []# 使用for循环遍历reader,将遍历的数据存储到变量info中
for info in reader:# 使用append()函数,将info逐一添加到data列表中data.append(info)# TODO 导入jieba模块
import jieba# TODO 使用for循环遍历data列表
for row in data:# TODO 获取具体的评价内容,并赋值给变量texttext=row[0]# TODO 使用jieba.lcut()将text进行分词,并把结果赋值给retret=jieba.lcut(text)# 输出ret进行查看print(ret)

因为文件容量比较大,所以生成的分词比较多,如图所示:

3.词袋模型的构建

(1)分析需求

经过jieba,lcut函数的处理之后,就生成了一系列的字符串列表:有多少条评论,就会生成多少条评论,但是我们后续的词袋模型只能传进去一个字符串,所以我们要把生成的诸多字符串转换成一个字符串;

(2)处理分析

我们的解决方案就是把每个列表里面的字符串使用空格进行合并,添加到一个新的列表里面;

下面是具体的实现:

1.先实现字符串的连接

把小的列表里面的内容使用空格合并成为一个字符串,我们这里可以使用join()函数:

按照上面的示例,在这个题上面,具体的代码就只需要在原来的基础上面进行修改就可以了:


2.字符串放到新的列表里面

4.提取高频词语

机器学习模块sklearn可以帮助我们处理这个问题,这个模块里面含有许多的函数,可以直接进行评论的提取以及高频词的统计;sklearn不是内置的模块,需要我们在本地进行安装

(1)STEP1. 导入模块

我们需使用
from...import...,从 sklearn.feature_extraction.text 模块中导入 CountVectorizer 类。


(2)STEP2. 创建CountVectorizer对象

导入模块后,需要创建一个CountVectorizer对象,这样才能调用CountVectorizer类里面的某个方法或属性。

由于我们只想从评价中筛选出前15个出现频率最高的词语,所以传入了max_features=15。

# 从sklearn.feature_extraction.text中导入CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer# 创建CountVectorizer对象,并存储在vect中
vect = CountVectorizer(max_features=15)


(3)STEP3. 使用fit_transform()函数构造词袋模型

X = vect.fit_transform(word)

这个里面的word就是我们前面新建的列表

这个里面的生成结果全部是数字,我们来解释一下:

(4)STEP4. 使用get_feature_names()提取关键词

# TODO 对vect对象使用get_feature_names(),并将结果赋值给keywords
keywords = vect.get_feature_names()# 输出keywords
print(keywords)

最后的返回结果就是高频词:

这篇关于Python人工智能应用---中文分词词频统计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877883

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专