wordcloud,一个超酷的python库

2023-12-27 21:52
文章标签 python wordcloud 超酷

本文主要是介绍wordcloud,一个超酷的python库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

微信公众号:愤怒的it男,超多Python技术干货文章。

一、简单介绍一下

词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词,让读者能够从大量文本数据中快速抓住重点。如下图:

图1

wordcloud则是一个非常优秀的词云展示python库,它支持自定义词云图的大小、颜色、字体等,甚至可以通过蒙版图片设置词云图的形状。因此,我们可以借助wordcloud轻松生成精美的词云图。

二、安装只需一行命令

pip install wordcloud

三、从一个简单例子开始

from wordcloud import WordCloudtext = "微信公众号:愤怒的it男"wc = WordCloud(font_path='FZYTK.TTF', repeat=True)
wc.generate(text)
wc.to_file('wordcloud.png')

这里通过WordCloud类设置字体为方正姚体,背景颜色为白色,文本可以重复显示。生成WordCloud对象后,使用generate()方法将“微信公众号:愤怒的it男”生成词云图。最后,使用to_file()方法生成图片文件。

图2

四、细说wordcloud

WordCloud作为wordcloud库最核心的类,其主要参数及说明如下:

图3

这里以wordcloud库官方文档的constitution.txt文件作为数据,覆盖WordCloud类的各种参数设置用法,绘制出一张精美的词云图。

图4

首先,读入constitution.txt数据,并将数据清洗成空格分隔的长字符串。

import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])print(text[:500])

图5

然后,在默认参数设置下,使用WordCloud对象的generate()和to_file()方法生成一张简单的词云图。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud()
wc.generate(text)wc.to_file('wordcloud.png')

图6

以上词云图是在默认参数下生成的,简单粗糙不好看。接下来我们将对WordCloud的各种参数调整设置,不断地对以上词云图进行升级改造。

1、设置图片属性

设置图片宽为600,高为300,放大1.5倍,色彩空间为RGBA,背景颜色为None。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,)
wc.generate(text)wc.to_file('wordcloud.png')

图7

2、设置文字布局

设置水平比例为1(即全部为水平文字),最多只显示100个词,停用词使用自带的词典(中文需要传入自定义的),相关一致性为0.3,文字布局为非随机,不允许重复词。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,)
wc.generate(text)wc.to_file('wordcloud.png')

图8

3、设置字体属性

设置字体为‘JOKERMAN.TTF’,最小字号为2,最大字号为150。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,font_path='JOKERMAN.TTF',min_font_size=2,max_font_size=150,)
wc.generate(text)wc.to_file('wordcloud.png')

图9

4、设置蒙版

图10

设置微信公众号【愤怒的it男】头像的黑白图片为蒙版图片。

from PIL import Image
from wordcloud import WordCloud
import numpy as np
import remask_picture = np.array(Image.open('angry_it_man_mask.png'))with open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,font_path='JOKERMAN.TTF',min_font_size=2,max_font_size=150,mask=mask_picture,)
wc.generate(text)wc.to_file('wordcloud.png')

图11

微信公众号:愤怒的it男,超多Python技术干货文章。

这篇关于wordcloud,一个超酷的python库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/544390

相关文章

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

Python中局部变量和全局变量举例详解

《Python中局部变量和全局变量举例详解》:本文主要介绍如何通过一个简单的Python代码示例来解释命名空间和作用域的概念,它详细说明了内置名称、全局名称、局部名称以及它们之间的查找顺序,文中通... 目录引入例子拆解源码运行结果如下图代码解析 python3命名空间和作用域命名空间命名空间查找顺序命名空

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

Python中的魔术方法__new__详解

《Python中的魔术方法__new__详解》:本文主要介绍Python中的魔术方法__new__的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、核心意义与机制1.1 构造过程原理1.2 与 __init__ 对比二、核心功能解析2.1 核心能力2.2

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

Python 中的 with open文件操作的最佳实践

《Python中的withopen文件操作的最佳实践》在Python中,withopen()提供了一个简洁而安全的方式来处理文件操作,它不仅能确保文件在操作完成后自动关闭,还能处理文件操作中的异... 目录什么是 with open()?为什么使用 with open()?使用 with open() 进行