python中文词频统计并利用词云图进行数据可视化

2024-03-11 23:10

本文主要是介绍python中文词频统计并利用词云图进行数据可视化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、前言
    • 简介
  • 二、项目简介
  • 三、实战项目
    • 实战1:中文词频统计并利用词云图进行数据可视化
      • 第一步:安装库
      • 第二步: 分析题目意思
      • 第三步:Jieba是什么
      • 第四步:Jieba常用的方法
      • 第五步: Wordcloud常用的方法
    • 代码详解
    • 结果

一、前言

简介

💻祝各位六一儿童节快乐,最近真的太忙了,转眼间大三就来到第二个学期,还有一学年就要毕业了;马上也要开始准备 毕业设计 。 但是很多地方还需要进阶学习。然后这段时间也学习了很多的东西,让我也是收获颇满;但同时也 认识到了自己的不足,下面我将介绍一下做的一些内容。

二、项目简介

Python数据处理、分析与应用的实现过程,以及专业技术人员所使用的基本方法和技巧,

培养自己解决Python数据处理、分析与应用过程中遇到实际问题的能力,

掌握应用Python编写程序的技术,提高学生在Python数据处理、分析与应用方面的综合应用能力。

基本的知识目前就不哆嗦了,直接实战。

三、实战项目

实战1:中文词频统计并利用词云图进行数据可视化

(1)认识jieba库和wordcloud库;

(2)利用jieba库进行中文词频统计,强调字典、列表的应用;

(3)结合词频统计结果利用wordcloud库进行词云图的可视化;

(4)程序代码存为“学号姓名a.py”,词频统计结果存为“学号姓名a.csv”,词云图存为“学号姓名a.png”;

(5)每个步骤需要运行结果截图,截图中需要加上水印,水印为自己的学号姓名。

第一步:安装库

    pip install 库名

第二步: 分析题目意思

题目需要利用jieba库和wordcloud库

首先认识一下这两个库

第三步:Jieba是什么

jieba(“结巴”)是Python中一个重要的第三方中文分词函数库,能够将一段中文文本分割成中文词语的序列。

jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。 除了分词jieba还提供增加自定义中文单词的功能。

第四步:Jieba常用的方法

精确模式,将句子最精确地切开,适合文本分析;返回结果是列表类型

    import jieba  #导入库a="爱上对方过后就哭了."ls = jieba.lcut(a)print(ls)

在这里插入图片描述

全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;将字符串的所有分词可能均列出来,返回结果是列表类型,冗余性最大

    import jiebaa="爱上对方过后就哭了."ls = jieba.lcut(a,cut_all=True)print(ls)

在这里插入图片描述

搜索引擎模式,在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    import jiebaa="爱上对方过后就哭了."ls = jieba.lcut_for_search(a)print(ls)

在这里插入图片描述

jieba.add_word()函数,用来向jieba词库增加新的单词。

    import jiebaa="爱上对方过后就哭了."jieba.add_word("过后就哭了.")ls = jieba.lcut(a)print(ls)

在这里插入图片描述

第五步: Wordcloud常用的方法

在生成词云时,wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理
根据文本中词语出现的频率等参数绘制词云 绘制词云的形状,尺寸和颜色都可以设定

过多的基础知识我这就不多余的讲解,不懂得请看以前的文章,嘿嘿😊

代码详解

    import matplotlib.pyplot as pltfrom PIL import Imageimport wordcloud as wcimport jiebaimport csvimport numpy as np#排除不合法字符excludes = open("stoplist.txt", 'r+', encoding='utf-8').read()b = []i = 0while i < len(excludes) - 1:if excludes[i] not in {',', '、', '.', ' ', '\n', '\\'}:b.append(excludes[i:i + 2])i += 2else:i += 1# 打开文件counts = {}with open('Praxis.txt', mode='r', encoding='utf-8') as fp:content = fp.read()words = jieba.lcut(content)  # 精确模式,返回一个列表类型的分词结果text = " ".join(words) #文本必须以空格的方式存入# 统计词语的次数for word in words:if len(word) == 1:continueelse:rword = wordcounts[rword] = counts.get(rword, 0) + 1for word in b:print(f'word{word}')if word in counts:del counts[word]print(f'counts{counts}')items = list(counts.items())print(f'item{items}')mask = np.array(Image.open('love.png'))word_cloud = wc.WordCloud(font_path=r'C:\Windows\Fonts\simkai.ttf',background_color="#e6ebf1",mask=mask,  # 背景图片max_words=2000,  # 设置最大显示的词数max_font_size=100,  # 设置字体最大值width=500,  # 设置画布的宽度height=500,  # 设置画布的高度)  # 创建文本对象word_cloud.generate(text)  # 加载文本fn = '888888小猿.csv'with open(fn, 'w', encoding='gbk', newline='') as csvfile:  # 打开文件csvWiter = csv.writer(csvfile)  # 建立Writer对象for key in counts:csvWiter.writerow([key, counts[key]])print("数据加载完毕")plt.imshow(word_cloud)word_cloud.to_file('888888小猿.jpg')  # 保存为图片plt.show()

在这里插入图片描述

结果

如果对你有帮助,请下方投币,创作不容易,请多多支持小猿✅
这里有更多更详细得技术讲解

这篇关于python中文词频统计并利用词云图进行数据可视化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/799374

相关文章

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java进行文件格式校验的方案详解

《Java进行文件格式校验的方案详解》这篇文章主要为大家详细介绍了Java中进行文件格式校验的相关方案,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、背景异常现象原因排查用户的无心之过二、解决方案Magandroidic Number判断主流检测库对比Tika的使用区分zip

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专