用python 做一个词云图:复仇者联盟4:终局之战。短评分析

2023-10-28 08:21

本文主要是介绍用python 做一个词云图:复仇者联盟4:终局之战。短评分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#短评网址
u1='https://movie.douban.com/subject/26100958/comments?start=40&limit=20&sort=new_score&status=P'
u1

输出结果为网址

#因为只有start的值不一样,所以我们可以采用格式化字符串%i来代替
u0='https://movie.douban.com/subject/26100958/comments?start=%i&limit=20&sort=new_score&status=P' %20
u0
#获取5个页面网址,并把它保存到一个列表中
url_lst=[]
for i in range(0,81,20):u0='https://movie.douban.com/subject/26100958/comments?start=%i&limit=20&sort=new_score&status=P' %iurl_lst.append(u0)
url_lst

输出结果为:为5个网址

#访问网页
import requests  #访问的工具包
import pandas as pd
from bs4 import BeautifulSoup #解析的工具包
u1=url_lst[0]#提取第一个网址
#返回response[200]代表向网页请求成功
r=requests.get(u1)
r

输出结果为:
<Response [200]>

#解析网页,会显示网页所有代码,我们就可以解析它的标签
soup=BeautifulSoup(r.text,'lxml')
#例如我要去找到复仇者联盟4:终极之战短评这几个字,是h1的标签
soup.h1

输出结果为:

复仇者联盟4:终局之战 短评

#看过(221799)
soup.find('li',class_='is-active')

输出结果为:

  • 看过(221812)
  • #所有的评论在这个大的div下面
    div=soup.find('div',id='comments')
    div
    
    #构建获取页面URL的函数
    def get_urls(n):urllst=[]for i in range(n):urllst.append('https://movie.douban.com/subject/26100958/comments?start=%i&limit=20&sort=new_score&status=P' %(i*20))return urllst
    urllsts=get_urls(50)
    urllsts[:2]
    

    输出结果为:前两个页面的网址

    # 构建网页信息获取函数def get_data(urli):try:ri = requests.get(url = u)ri.encoding = 'utf-8'# 访问网页soupi = BeautifulSoup(ri.text)# 解析网页infor_lst = soupi.find('div',id="comments").find_all('div',class_="comment-item")# 获取所有招聘标签divdatalsti = []for infor in infor_lst[:]:dic = {}dic['评论者'] = infor.find('span',class_="comment-info").find('a').textdic['评分'] = int(infor.find('span',class_="comment-info").find_all('span')[1]['class'][0][-2:])dic['评论时间'] = infor.find('span',class_="comment-time").text.replace(' ','').replace('\n','')dic['有用数量'] = int(infor.find('span',class_="votes").text)dic['评论内容'] = infor.find('p').text.replace('\n','')datalsti.append(dic)return datalstiexcept:return []u = 'https://movie.douban.com/subject/26100958/comments?start=0&limit=20&sort=new_score&status=P'
    get_data(u)[:2]
    

    输出结果为:
    在这里插入图片描述

    df=pd.DataFrame(datalst)
    df.head()
    

    在这里插入图片描述

    #数据分布分析
    #评论字数的分析
    df['评论字数']=df['评论内容'].str.len()
    df
    
    import matplotlib.pyplot as plt
    %matplotlib inline
    df['评论字数'] = df['评论内容'].str.len()
    plt.figure(figsize = (12,5))
    plt.title('评论字数数据分布')
    df['评论字数'].hist(bins = 20,edgecolor = 'white')
    plt.grid(linestyle='--')
    

    在这里插入图片描述

    #评论数量与有用数量的关系,用散点图来表示
    plt.figure(figsize = (12,5))
    plt.title('评论时间与有用数量关系')
    plt.scatter(df['评论时间'],df['有用数量'],alpha = 0.4)
    plt.xlabel('评论时间')
    plt.ylabel('有用数量')
    plt.grid(linestyle='--')
    

    在这里插入图片描述

    #关键人物的分析
    keyword='灭霸'
    n=0
    for i in df['评论内容']:if keyword in i:n=n+1
    print(n)
    
    #用DataFrame实现
    len(df[df['评论内容'].str.contains('灭霸')])
    
    #定义一个函数,去输出不同的人物在评论中出现的次数
    def name_count1(namei):return len((df[df['评论内容'].str.contains(namei)]))
    print('函数构建成功!')
    
    name_count1('美队')
    
    #词频的出现次数
    namelst=['美队','钢铁侠','灭霸','雷神','浩克','惊奇队长','奇异博士','死']
    for i in namelst:print(i,name_count1(i))
    

    输出结果为:
    美队 13
    钢铁侠 17
    灭霸 10
    雷神 13
    浩克 2
    惊奇队长 10
    奇异博士 3
    死 22
    最后做成词云图
    在这里插入图片描述

这篇关于用python 做一个词云图:复仇者联盟4:终局之战。短评分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/291939

相关文章

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An