python中如何生成词云

2024-03-21 23:44
文章标签 python 生成 词云

本文主要是介绍python中如何生成词云,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂

在这里插入图片描述

今天给大家看看,如何使用python实现根据记录创建生成词云

首先我们看下效果图。

在这里插入图片描述
在这里插入图片描述
一个是生成了新闻的词云,另一个是生成了聊天记录的词云。下面是代码:

# coding: utf-8import codecs
import logging
import osfrom wordcloud import WordCloud, ImageColorGenerator
from PIL import Image, ImageFont, ImageDraw
import numpy as np
import jieba
import pandas
import imageiofrom common_util.config import PROJECT_PATH# content:需要生成的内容
# filename词云图片名称
# title 标题
def createciyun(content, filename, title):stopwords_filename = PROJECT_PATH+'userdict/stop_words_full.txt'# 加载自定义词典jieba.load_userdict( PROJECT_PATH+"userdict/custom_dict.txt")# 配置停用词stopwords = set([line.strip()for line in codecs.open(stopwords_filename, 'r', 'utf-8')])# 使用jieba进行分词_seg_list = jieba.cut(content)words = []for seg in _seg_list:word = seg.strip().lower()if len(word) > 1 and word not in stopwords:words.append(word)words_df = pandas.DataFrame({'word': words})words_stat = words_df.groupby(by=['word'])['word'].agg(np.size)words_stat = words_stat.to_frame()words_stat.columns = ['number']words_stat = words_stat.reset_index().sort_values(by="number", ascending=False)print("共去重 %d 个词(已去重)" % len(words_stat))# 生成词云图片_background_img = imageio.imread( PROJECT_PATH+"Images/cat.jpg")_word_cloud = WordCloud(font_path= PROJECT_PATH+"font/jiangxizhuokai.ttf",background_color=(255, 255, 255),mask=_background_img,max_font_size=600,random_state=100)_word_cloud = _word_cloud.fit_words(dict(words_stat.head(100).itertuples(index=False)))_background_img_colors = ImageColorGenerator(_background_img)_word_cloud.recolor(color_func=_background_img_colors)# 将词云图片保存到文件_word_cloud.to_file(filename)# 添加标题add_title(filename, title)logging.debug("生成词云成功!!")# file:文件
# title_name:标题名
def add_title(file, title_name):# 加载图片body_img = Image.open(file)width, height = body_img.size# 增加的高度,用来放头部additional_height = 100height += additional_height# 生成一个尺寸为width,height的背景色为白色的图片bg = Image.new('RGB', (width, height), color=(255, 255, 255))# 将原始图片粘贴到新背景的顶部bg.paste(body_img, (0, additional_height))# 字体路径fontpath =  PROJECT_PATH+'font/jiangxizhuokai.ttf'font = ImageFont.truetype(fontpath, 32)# 计算出需要写入的文字占用的像素w, h = font.getsize(title_name)# 创建画布draw = ImageDraw.Draw(bg)# 计算标题的起始位置,使其位于图片的正上方title_y = additional_height - h  # 从顶部开始,减去标题的高度# 绘制标题文本draw.text(((width - w) / 2, title_y), title_name, font=font, fill="#ff0000")bg.save(file, "PNG")print("{}标题添加完成".format(file))

用到的生成图片如下:

在这里插入图片描述
用到的其他字典和过滤池如下所示:

雄雄的小课堂 3 nz
穆雄雄 3 nz
雄雄 3 nz
雄雄的工具箱 3 nz
小鱼早晚安打卡 3 nz
AT&T 3 nz
B超 3 n
c# 3 nz
C# 3 nz
c++ 3 nz
C++ 3 nz
T恤 4 n
A座 3 n
A股 3 n
A型 3 n
A轮 3 n
AA制 3 n
AB型 3 n
B座 3 n
B股 3 n
B型 3 n
B超 3 n
B轮 3 n
BB机 3 n
BP机 3 n
C盘 3 n
C座 3 n
C语言 3 n
CD盒 3 n

"

$
&

(
)
*
+
,

.



./
.一
.数
.日
/
//
0
1
2
3
4

这篇关于python中如何生成词云的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/834110

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

poj 1287 Networking(prim or kruscal最小生成树)

题意给你点与点间距离,求最小生成树。 注意点是,两点之间可能有不同的路,输入的时候选择最小的,和之前有道最短路WA的题目类似。 prim代码: #include<stdio.h>const int MaxN = 51;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int P;int prim(){bool vis[MaxN];

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

hdu 1102 uva 10397(最小生成树prim)

hdu 1102: 题意: 给一个邻接矩阵,给一些村庄间已经修的路,问最小生成树。 解析: 把已经修的路的权值改为0,套个prim()。 注意prim 最外层循坏为n-1。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstri

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言