利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)

2023-11-11 00:30

本文主要是介绍利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通过之前使用request库和BeautifulSoup库爬取得到了虎扑湖区前几页的帖子评论,接下里就要通过这些评论来制作词云。
1利用中文分词库jieba来分词
要想从评论中获取话题热度最高的词汇,我们需要将这些评论分成一个个的词汇,中文分词不像英文那般简单,还好jieba为我们提供了这样的功能。
首先通过pip安装jieba库,管理员权限打开cmd,输入pip install jieba
jieba安装好之后,对我之前爬取的评论进行分词,一开始发现效果并不是很好,通过查阅资料知道,一般在分词的时候我们还要载入一个停用词表,以此来剔除一些常见的时间,地点状语和一些连接词,口气词以及标点符号。停用词表百度就可以直接下载别人所停供的常见的停用词。
此外,由于在NBA打球的一些球星的名字和外号都是jieba词库中没有的,我们需要手工加入一些球星的姓名,外号以及一些常见的NBA术语。代码如下:

import jieba.analyse
from wordcloud import WordCloud
import PIL
import matplotlib.pyplot as plt
import numpy as npdef main():a = []path = 'D:/NoteComments11-25.txt'fp = open(path, 'r', encoding='UTF-8')content = fp.read()jieba.add_word("英格拉姆")jieba.add_word("老詹")jieba.add_word("武切维奇")# 11-26日主场打魔术,所以把识别不出的魔术中锋武切维奇加入jieba词库try:jieba.analyse.set_stop_words('D:/stopWords.txt')tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)for item in tags:# print(item[0]+'t'+str(int(item[1]*10000)))a.append(item[0])finally:fp.close()txt = r' '.join(a)wordcloudplot(txt)

在这里我们找出出现词频最高的100个词,并将他们按照出现次数的多少依次保存到数组a中
2利用wordcloud库生成词云
首先我们需要通过pip下载获取wordcloud库和matplotlib库(下载过程中楼主出现了下载失败的情况,此时我们可以通过更换下载源来实现成功下载)。
将词汇分好之后我们引入一个函数wordcloundplot,通过此函数来制作一个词云图。

def wordcloudplot(txt):path = 'D:/SentyTang/SentyTang.ttf'lakers_mask = np.array(PIL.Image.open('D:/Lakerskobe2.jpg'))wordcloud = WordCloud(background_color="white",font_path=path,margin=5,width=1800,height=1800,mask=lakers_mask,max_words=200,max_font_size=200,random_state=42)wordcloud = wordcloud.generate(txt)wordcloud.to_file('D:/lakersWordCloud.jpg')plt.imshow(wordcloud)plt.axis("off")plt.show()

由于wordcloud本身是不支持中文词云的,此时中文会被显示为一个个的方块,这时候我们需要提供给wordcloud字体,在这里楼主用的唐朝体,可以根据自己的喜好更换。
然后对wordcloud设置一系列的参数来制作词云
最终词云的效果图如下
11-23号
这样看上去还是有一点单调,所以我们可以通过设置mask参数来制作指定形状的词云,楼主使用一张科比的图片。
在这里插入图片描述

最终词云的效果图如下:
在这里插入图片描述

这篇关于利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/386335

相关文章

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

用Unity2D制作一个人物,实现移动、跳起、人物静止和动起来时的动画:中(人物移动、跳起、静止动作)

上回我们学到创建一个地形和一个人物,今天我们实现一下人物实现移动和跳起,依次点击,我们准备创建一个C#文件 创建好我们点击进去,就会跳转到我们的Vision Studio,然后输入这些代码 using UnityEngine;public class Move : MonoBehaviour // 定义一个名为Move的类,继承自MonoBehaviour{private Rigidbo

OpenStack离线Train版安装系列—0制作yum源

本系列文章包含从OpenStack离线源制作到完成OpenStack安装的全部过程。 在本系列教程中使用的OpenStack的安装版本为第20个版本Train(简称T版本),2020年5月13日,OpenStack社区发布了第21个版本Ussuri(简称U版本)。 OpenStack部署系列文章 OpenStack Victoria版 安装部署系列教程 OpenStack Ussuri版

OpenStack镜像制作系列5—Linux镜像

本系列文章主要对如何制作OpenStack镜像的过程进行描述记录 CSDN:OpenStack镜像制作教程指导(全) OpenStack镜像制作系列1—环境准备 OpenStack镜像制作系列2—Windows7镜像 OpenStack镜像制作系列3—Windows10镜像 OpenStack镜像制作系列4—Windows Server2019镜像 OpenStack镜像制作

OpenStack镜像制作系列4—Windows Server2019镜像

本系列文章主要对如何制作OpenStack镜像的过程进行描述记录  CSDN:OpenStack镜像制作教程指导(全) OpenStack镜像制作系列1—环境准备 OpenStack镜像制作系列2—Windows7镜像 OpenStack镜像制作系列3—Windows10镜像 OpenStack镜像制作系列4—Windows Server2019镜像 OpenStack镜像制作系

OpenStack镜像制作系列2—Windows7镜像

本系列文章主要对如何制作OpenStack镜像的过程进行描述记录 CSDN:OpenStack镜像制作教程指导(全) OpenStack镜像制作系列1—环境准备 OpenStack镜像制作系列2—Windows7镜像 OpenStack镜像制作系列3—Windows10镜像 OpenStack镜像制作系列4—Windows Server2019镜像 OpenStack镜像制作系列

OpenStack镜像制作系列1—环境准备

本系列文章主要对如何制作OpenStack镜像的过程进行描述记录 CSDN:OpenStack镜像制作教程指导(全) OpenStack镜像制作系列1—环境准备 OpenStack镜像制作系列2—Windows7镜像 OpenStack镜像制作系列3—Windows10镜像 OpenStack镜像制作系列4—Windows Server2019镜像 OpenStack镜像制作

CSDN:OpenStack镜像制作教程指导(全)

本系列文章主要对如何制作OpenStack镜像的过程进行描述记录,涉及基本环境准备、常见类型操作系统的镜像制作。 让你可以从零开始安装一个操作系统,并支持个性化制作OpenStack镜像。 CSDN:OpenStack镜像制作教程指导(全) OpenStack镜像制作系列1—环境准备 OpenStack镜像制作系列2—Windows7镜像 OpenStack镜像制作系列3—Windows

docker学习系列(四)制作基础的base项目镜像--jdk+tomcat

前面已经完成了docker的安装以及使用,现在我们要将自己的javaweb项目与docker结合 1.1准备jdk+tomcat软件 ​​我下载了apache-tomcat-7.0.68.tar.gz和jdk-7u79-linux-x64.tar.gz,存储于Linux机器的本地目录/usr/ect/wt/下(利用xshell上传)。利用linux命令 tar -zxvf apache-tom