python高手养成百家号_离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...,电影,船舶买卖,中国船舶交易网,搜船论坛...

本文主要是介绍python高手养成百家号_离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...,电影,船舶买卖,中国船舶交易网,搜船论坛...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2 c2 J" `4 f' [; c

【第一步】获取《离骚》原文并对原文数据进行清洗【第二步】对《离骚》原文进行分词统计【第三步】对《离骚》中多频词出现次数进行词云展示【第四步】简要分析词云结果现在我们分步骤逐个击破……

' Z2 S  y! a- H6 _) Q: K/ J

【第一步】获取《离骚》原文并对原文数据进行清洗

" F6 v& j: ?' i5 q

将《离骚》文章及翻译内容下载后保存到本地,文件名为filename。

2 Y1 `  i3 A7 _) m2 t0 J/ R% ^

content_lst = []try:with open(filename, 'r') as f_r:        for item in f_r.readlines():            content_lst.append(item.split('(')[0].strip())except FileExistsError as error:    print(str(error))1 R$ r& j, j5 X3 t7 K! u. m" p# l

将文件去除翻译及换行符后保存在本地(为了说明留下这一步,程序中不用保存在本地)。

& S8 |* K0 ^: b# t) |

try:with open('lisao_clean.txt', 'w') as f_w:        f_w.write(''.join(content_lst))except Exception as e:    print(str(e))7 i! R: ]) A6 ^' i

程序函数中直接返回数据即可。' `+ @. X% }4 ]

none.gif

离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...-2.jpg (243.62 KB, 下载次数: 0)

2019-6-4 12:14 上传

* Z; |6 j- x) W对《离骚》原文及翻译进行处理

% a+ o* Y8 C: @7 X) A+ P3 Y+ h5 i

【第二步】对《离骚》原文进行分词统计+ a/ P1 K- Y5 E6 p) m* v/ p

首先,将文本中标点符号去除,代码如下:

. {  b, R: n3 V9 E1 |2 T1 I

pattern = re.compile(r',|:|;|,|。|\?|?|!|「|、|《|》|!')re.sub(pattern, '', content)5 O( R$ R3 w& K  o7 k# a5 c

然后利用jieba库进行分词操作,并使用collections库中的Counter()方法返回每个词语的词频信息。( k# m0 Y, ^4 R! |% ?  n

jb_cut = jieba.cut(content)collections.Counter(list(jb_cut)

6 M1 d" U# f. Q3 B' L% G& T: ]

【第三步】对《离骚》中多频词出现次数进行词云展示* N9 l9 ~: ^. q. J

使用词云展示词频信息- t$ y7 Y7 ?" R' ^5 a; U3 m( x

path_image = 'bg.jpg'font_path = "STHUPO.TTF"background_image = np.array(Image.open(path_image))wd = WordCloud(width=1024,    height=800,    max_font_size=500,    random_state=10,    font_path=font_path,    background_color="white",    mask=background_image).generate_from_frequencies(d_content)wd.to_file('lisao.png')plt.imshow(wd, interpolation="bilinear")plt.axis("off")plt.show()- w0 i' F2 G1 v+ R% |

【第四步】简要分析词云结果

, U9 }( K+ x/ l: w+ F! m

程序运行后词云结果如图所示。( X$ K. r# f, `) o

none.gif

离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...-3.jpg (111.88 KB, 下载次数: 0)

2019-6-4 12:14 上传+ w+ b- u$ ?! l! D$ Q5 Z

《离骚》词云图3 T2 R  K* r9 e4 h

这篇关于python高手养成百家号_离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...,电影,船舶买卖,中国船舶交易网,搜船论坛...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/373412

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal