【传知代码】私人订制词云图-论文复现

2024-05-28 03:36

本文主要是介绍【传知代码】私人订制词云图-论文复现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 概述
  • 原理介绍
  • 核心逻辑
    • 1、选取需要解析的txt文档
    • 2、选取背景图明确形状
    • 3、配置停用词
    • 4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题
  • 技巧
    • 1、中文乱码问题,使用的时候指定使用的文字字体
    • 2、更换背景图
    • 3、词库下载以及格式转换方式
    • 4、jieba的快速说明
    • 5、支持自定义文字颜色
  • 环境配置/部署方式
  • 小结

本文涉及的源码可从私人订制词云图该文章下方附件获取

概述

词云图(Word Cloud)是一种文本数据的可视化表示方法,它通过将文本中每个单词的大小与其在文本中出现的频率或重要性相关联,从而以视觉方式展示文本数据的关键信息。词云图在数据分析、文本挖掘、社交媒体分析等领域中广泛应用,因为它能够直观地展示大量文本数据中的主题、关键词或情感倾向。

在这里插入图片描述

在这里插入图片描述

原理介绍

词云图(Word Cloud)的原理可以清晰地分为以下几个步骤,这些步骤共同协作,以生成一种可视化的文本数据表示方式:

  1. 分词
    • 词云图的第一步是将输入的文本数据划分为一个个单独的词语。这个过程通常被称为分词,它涉及到将连续的文本字符串拆分成单独的词汇单元。
  2. 统计词频
    • 在分词完成后,词云图生成工具会统计每个词语在文本中出现的次数。这个步骤是确定词语在词云图中重要性的关键,因为词频高的词语通常会被视为更重要或更相关的。
  3. 去除停用词
    • 停用词是指那些出现频率高但通常不带有实际意义的词语,如“的”、“了”等。为了提高词云图的质量,这些词语通常会被从词频统计中去除,以便更准确地反映文本的主题。
  4. 去除重复词语
    • 如果文本中存在多个相同的词语,词云图生成工具通常只会计算它们的一次出现。这是为了确保词频统计的准确性,避免重复计数。
  5. 计算权重
    • 根据词语在文本中出现的频率,词云图生成工具会计算每个词语的权重。这个过程可能会使用到不同的算法,如TF-IDF(词频逆文档频率)算法,以更准确地反映词语在文本中的重要性。
  6. 显示词云
    • 在计算完词语的权重后,词云图生成工具会将这些词语按照其权重进行排列和分布,形成词云图。在这个过程中,词语的大小、颜色等视觉元素通常会被用来表示其权重,即出现频率高或重要性大的词语会显得更大、更突出。

核心逻辑

以python为例,主要使用的库

import wordcloud #词云库
import jieba #分词工具

1、选取需要解析的txt文档

text_file_path = "./《山海经》先秦白话文版.txt"

也可以从解析某个网站数据(本文是以txt文本为例,没有采取下面代码方式)

# 从网站获取文本内容
url = "https://baidu.com"
response = requests.get(url)
response.encoding = 'utf-8'  # 设置编码,确保正确处理中文字符
html_content = response.text# 使用BeautifulSoup解析HTML,提取文本内容
soup = BeautifulSoup(html_content, "html.parser")
text_data = soup.get_text()

2、选取背景图明确形状

background_image_path = "./心.png" # 地图.png

3、配置停用词

# 设置停用词
#wordcloud库允你排除一些词汇,这样它们就不会出现在词云图中。你可以使用 stopwords 参数来指定要排除的词汇。
def load_stopwords(file_path):with open(file_path, "r", encoding="gb18030") as file:return set(file.read().splitlines())stopwords_path = "./stopwords.txt"
stopwords = load_stopwords(stopwords_path)
# 添加额外的停用词
stopwords.update(["注释", "译文", "这座", "名称", "很多", "名曰", "之山", "一种"])

4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题

# 加载词典(分词的时候不拆开,比如‘山海经’不应该被拆成‘山’、‘海’、‘经’等)
# 主要用于定义一些专有名词
jieba.load_userdict('山海经异兽_22个.txt')
jieba.add_word('山海经')
jieba.add_word('先秦')

技巧

所有技巧(坑)都在演示视频里面逐一演示,注意避坑。

1、中文乱码问题,使用的时候指定使用的文字字体

font_path = ("./simsun.ttc") #指定字体,否则可能会中文乱码

2、更换背景图

需要选择透明背景色的,有的白底的图,肉眼看起来没问题,但是程序却认为整张图片是一个形状,比如下面的图就不行(出来的词云图是外框矩形):

而这张图就可以:

在这里插入图片描述

3、词库下载以及格式转换方式

词库搜索下载地址

在这里插入图片描述

现在下来后的格式是.scel的,需要转换成txt
转换地址

在这里插入图片描述

4、jieba的快速说明

# -*- coding: utf-8 -*-
import jiebaseg_str = "好好学习,天天向上。"print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

结果:

好好学习/,/天天向上/。
好好/好好学/好好学习/好学/学习/,/天天/天天向上/向上/。
好好/好学/学习/好好学/好好学习/,/天天/向上/天天向上/。

5、支持自定义文字颜色

colormaps = mpl.colormaps['tab10'] # tab20
# 也支持自定义文字颜色
# colormaps = colors.ListedColormap(['#FF0000','#FF7F50','#FFE4C4'])

环境配置/部署方式

python wordsCloud.py

小结

词云图的一些主要特点:

  1. 可视化效果:词云图以图像的形式呈现文本数据,使得人们能够直观地看到文本中的主要词汇和它们之间的关系。通过颜色、大小、字体等视觉元素,词云图能够突出显示重要的词汇,帮助用户快速理解文本的核心内容。
  2. 频率或重要性表示:在词云图中,每个单词的大小通常与其在文本中出现的频率或重要性成正比。这意味着出现频率高或重要性大的词汇在词云图中会显得更大、更突出。这种表示方式有助于用户快速识别文本中的关键信息。
  3. 自定义程度高:词云图具有很高的自定义程度,用户可以根据需要调整词汇的颜色、大小、字体等属性,以及选择特定的词汇过滤条件,从而生成符合自己需求的词云图。
  4. 支持多种文本数据源:词云图可以处理来自各种文本数据源的数据,包括社交媒体帖子、新闻报道、用户评论、书籍、文章等。这使得词云图在各个领域都有广泛的应用前景。
  5. 揭示文本主题:通过词云图,用户可以快速了解文本的主题和关键词。例如,在社交媒体分析中,词云图可以帮助用户了解用户讨论的热点话题和关键词;在新闻报道分析中,词云图可以帮助用户了解新闻的主要内容和情感倾向。
  6. 局限性:虽然词云图具有很多优点,但也存在一些局限性。例如,词云图通常只能展示文本中的词汇信息,而无法展示词汇之间的语法关系或上下文信息。此外,词云图对于某些特定的文本数据可能不太适用,例如诗歌、散文等文学作品。

词云图是一种非常有用的文本数据可视化工具,它能够帮助用户快速了解文本的主要内容和关键词,揭示文本的主题和情感倾向。在实际应用中,用户可以根据需要选择合适的词云图生成工具和数据源,以生成符合自己需求的词云图。
在这里插入图片描述

这篇关于【传知代码】私人订制词云图-论文复现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1009427

相关文章

uniapp接入微信小程序原生代码配置方案(优化版)

uniapp项目需要把微信小程序原生语法的功能代码嵌套过来,无需把原生代码转换为uniapp,可以配置拷贝的方式集成过来 1、拷贝代码包到src目录 2、vue.config.js中配置原生代码包直接拷贝到编译目录中 3、pages.json中配置分包目录,原生入口组件的路径 4、manifest.json中配置分包,使用原生组件 5、需要把原生代码包里的页面修改成组件的方

公共筛选组件(二次封装antd)支持代码提示

如果项目是基于antd组件库为基础搭建,可使用此公共筛选组件 使用到的库 npm i antdnpm i lodash-esnpm i @types/lodash-es -D /components/CommonSearch index.tsx import React from 'react';import { Button, Card, Form } from 'antd'

17.用300行代码手写初体验Spring V1.0版本

1.1.课程目标 1、了解看源码最有效的方式,先猜测后验证,不要一开始就去调试代码。 2、浓缩就是精华,用 300行最简洁的代码 提炼Spring的基本设计思想。 3、掌握Spring框架的基本脉络。 1.2.内容定位 1、 具有1年以上的SpringMVC使用经验。 2、 希望深入了解Spring源码的人群,对 Spring有一个整体的宏观感受。 3、 全程手写实现SpringM

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

记录AS混淆代码模板

开启混淆得先在build.gradle文件中把 minifyEnabled false改成true,以及shrinkResources true//去除无用的resource文件 这些是写在proguard-rules.pro文件内的 指定代码的压缩级别 -optimizationpasses 5 包明不混合大小写 -dontusemixedcaseclassnames 不去忽略非公共

麻了!一觉醒来,代码全挂了。。

作为⼀名程序员,相信大家平时都有代码托管的需求。 相信有不少同学或者团队都习惯把自己的代码托管到GitHub平台上。 但是GitHub大家知道,经常在访问速度这方面并不是很快,有时候因为网络问题甚至根本连网站都打不开了,所以导致使用体验并不友好。 经常一觉醒来,居然发现我竟然看不到我自己上传的代码了。。 那在国内,除了GitHub,另外还有一个比较常用的Gitee平台也可以用于

众所周知,配置即代码≠基础设置即代码

​前段时间翻到几条留言,问: “配置即代码和基础设施即代码一样吗?” “配置即代码是什么?怎么都是基础设施即代码?” 我们都是知道,DevOp的快速发展,让服务器管理与配置的时间大大减少,配置即代码和基础设施即代码作为DevOps的重要实践,在其中起到了关键性作用。 不少人将二者看作是一件事,配置即大代码是关于管理特定的应用程序配置设置本身,而基础设施即代码更关注的是部署支持应用程序环境所需的

53、Flink Interval Join 代码示例

1、概述 interval Join 默认会根据 keyBy 的条件进行 Join 此时为 Inner Join; interval Join 算子的水位线会取两条流中水位线的最小值; interval Join 迟到数据的判定是以 interval Join 算子的水位线为基准; interval Join 可以分别输出两条流中迟到的数据-[sideOutputLeftLateData,

Git代码管理的常用操作

在VS022中,Git的管理要先建立本地或远程仓库,然后commit到本地,最后push到远程代码库。 或者不建立本地的情况,直接拉取已有的远程代码。 Git是一个分布式版本控制系统,用于跟踪和管理文件的变化。它可以记录文件的修改历史,并且可以轻松地回滚到任何历史版本。 Git的基本概念包括: 仓库(Repository):Git使用仓库来存储文件的版本历史。一个仓库可以包含多个文件

HTML文档插入JS代码的几种方法

在HTML文档里嵌入客户端JavaScript代码有4中方法: 1.内联,放置在< script>和标签对之间。 2.放置在由< script>标签的src属性指定的外部文件中。 3.放置在HTML事件处理程序中,该事件处理程序由onclick或onmouseover这样的HTML属性值指定。 4.放在一个URL里,这个URL使用特殊的“javascript:”协议。 在JS编程中,主张