wordcloud词云图和jieba分词,过滤不要的词句(停用词)

2023-12-28 08:20

本文主要是介绍wordcloud词云图和jieba分词,过滤不要的词句(停用词),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

"""
生成中文词云步骤
1、读取文件内容
2、借助jieba分词库对中文进行分词,让后将结果合并,以空格隔开
3、打开图片文件,得到对应数组(可以设置图片的形状;图片中的白色部分不显示)
4、创建WordCloud对象,设置基本属性 (创建词云对象,将文本生成词云generate,再用画出词云图,并显示)
5、生成词云图,并保存或显示图片中文中需要设置停用词的话可以有三种方法:(过滤不需要的)
1、在分词前,将中文文本的停用词先过滤掉。
2、分词的时候,过滤掉停用词。
3、在wordcloud中设置stopwords。"""import jieba  # 先安装pip install jieba
import wordcloud as wc  # 先安装pip install wordcloud
import matplotlib.pyplot as plt  # 用于显示图片
from PIL import Image
import numpy as np  # 先安装pip install numpy# 词云图的形状mask
mask = np.array(Image.open('fivestar.png'))  # 读取图片 词云图样# # 设置停用词(直接再代码设置)
# stopwords = ['的', '制度', '完善', '发展', '和', '□']
# wc.STOPWORDS.update(stopwords)# 设置停用词(文件设置停用词; \ufeff 需要把编码模式改成utf-8-sig)
stopwords = set()
content = [line.strip() for line in open('hit_stopwords.txt', 'r', encoding='utf-8-sig').readlines()]
print(content)
stopwords.update(content)# 创建词云对象,设定基本信息;
words = wc.WordCloud(font_path='AliHYAiHei-Beta_0.ttf', mask=mask, stopwords=stopwords)# 读取文件内容
with open('text.txt', mode='r', encoding='utf-8') as f:txt = f.read()
txt = ' '.join(jieba.lcut(txt))  # 用空格连接分好的词
# print(content)
words.generate(txt)
# word_cloud.to_file('词云图.png')  # 保存词云图# 显示词云图
plt.imshow(words)  # 显示图片
plt.axis('off')  # 不显示坐标轴
plt.show()  # 显示图"""
在读取文件中出现\ufeff,解决 \ufeff的问题
只需改一下编码就行,把 UTF-8 编码 改成 UTF-8-sig
https://www.cnblogs.com/yunlongaimeng/p/12530255.html
"""

停用词文件(一行一个停用词):

Python 基础 之 词云(词的频率统计大小成图)的简单实现(包括图片词云,词云颜色,词的过滤)_仙魁XAN的博客-CSDN博客_词云过滤一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言,可以应用于以下领域: Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。本节简单介绍,词云的生成图、保存词云图片、图片 mask 生成词云、过滤词云中的某些词等简单功能,如有不对,欢迎指正,谢谢。...https://blog.csdn.net/u014361280/article/details/111227462?ops_request_misc=&request_id=&biz_id=102&utm_term=wordcloud%20%E8%BF%87%E6%BB%A4%20stopwords&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-8-111227462.142^v10^control,157^v4^control&spm=1018.2226.3001.4449

这篇关于wordcloud词云图和jieba分词,过滤不要的词句(停用词)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/545416

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

Solr 使用Facet分组过程中与分词的矛盾解决办法

对于一般查询而言  ,  分词和存储都是必要的  .  比如  CPU  类型  ”Intel  酷睿  2  双核  P7570”,  拆分成  ”Intel”,”  酷睿  ”,”P7570”  这样一些关键字并分别索引  ,  可能提供更好的搜索体验  .  但是如果将  CPU  作为 Facet  字段  ,  最好不进行分词  .  这样就造成了矛盾  ,  解决方法

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面

Java8特性:分组、提取字段、去重、过滤、差集、交集

总结下自己使用过的特性 将对象集合根据某个字段分组 //根据id分组Map<String, List<Bean>> newMap = successCf.stream().collect(Collectors.groupingBy(b -> b.getId().trim())); 获取对象集合里面的某个字段的集合 List<Bean> list = new ArrayList<>

Java实现Smartcn中文分词

新建一个Maven项目,修改pom.xml文件内容:注意版本的不同; <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers

【重学 MySQL】十五、过滤数据

【重学 MySQL】十五、过滤数据 基本用法使用`AND`、`OR`和`NOT`使用`IN`操作符使用`BETWEEN`操作符使用`LIKE`操作符使用`IS NULL`和`IS NOT NULL` 在MySQL中,过滤数据主要通过WHERE子句来实现。WHERE子句允许你指定条件来过滤从表中检索出来的行。只有当行满足WHERE子句中的条件时,这些行才会被包含在查询结果中。

数据预处理与协同过滤推荐算法——从数据清洗到个性化电影推荐

推荐系统在现代应用中占据了重要地位,尤其在电影、音乐等个性化内容推荐中广泛使用。本文将介绍如何使用数据预处理、特征工程以及多种推荐算法(包括协同过滤、基于内容的推荐、混合推荐等)来实现电影推荐系统。通过Pandas、Scikit-learn、TensorFlow等工具,我们将展示如何从数据清洗开始,逐步实现各类推荐算法。  完整项目代码: 基于协同过滤的电影推荐系统 一、数据预处