我爬了《流浪地球》十万个短评得出以下结论

2024-03-19 08:59

本文主要是介绍我爬了《流浪地球》十万个短评得出以下结论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我爬了《流浪地球》十万个短评得出以下结论

前言

最近大家讨论最多的就是《流浪地球》了,偶尔刷逼乎,狗血的事情也是层出不穷,各种撕逼大战,有兴趣的小伙伴可以自行搜索。

截止目前,《流浪地球》已上映20天,累计票房43.94亿,豆瓣评分7.9分。博主是正月初七看的,票价有点小贵,整体效果还算可以,虽然剧情有点尴尬,各种镜头切换有时候看的稀里糊涂,但还是给了豆瓣四星好评。

爬取

逼乎上很多高手,对《流浪地球》在豆瓣的评分做了细思缜密的分析,有兴趣的也去自己搜索,这里主要是爬取《流浪地球》的好、中、差短评并分词分析。

爬取数据:

import os
import requests
import codecs
from bs4 import BeautifulSoup# 给请求指定一个请求头来模拟chrome浏览器
global headers
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
server = 'https://movie.douban.com/subject/26266893/comments'
# 定义存储位置
global save_path
save_path = os.getcwd()+"\\Text\\"+'短评_好评.txt'
global page_max
page_max = 25
global comments
comments = ''# 获取短评内容
def get_comments(page):req = requests.get(url=page)html = req.contenthtml_doc = str(html, 'utf-8')bf = BeautifulSoup(html_doc, 'html.parser')comment = bf.find_all(class_="short")for short in comment:global commentscomments = comments + short.text# 写入文件
def write_txt(chapter, content, code):with codecs.open(chapter, 'a', encoding=code)as f:f.write(content)# 主方法
def main():for i in range(0, page_max):try:page = server + '?start='+str(i*20)+'&limit=20&sort=new_score&status=P&percent_type=h'get_comments(page)write_txt(save_path, comments, 'utf8')except Exception as e:print(e)if __name__ == '__main__':main()

最终发现,每个类型只能查询出 500 条短评,后面就看不到了,不知道是否豆瓣有意而为之给隐藏了。

# 好评500条,中评500条,差评500条,自行更换 percent_type 参数即可。
# https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P&percent_type=h
# https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P&percent_type=m
# https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l

分析

使用结巴中文分词第三方库来进行高频分析:

import jieba
import ostxt = open(os.getcwd()+"\\Text\\"+"短评_差评.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word, 0) + 1items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)for i in range(0, 10):word, count = items[i]print("{0:<6}{1:>6}".format(word, count))

前十好评高频出现词汇:

我爬了《流浪地球》十万个短评得出以下结论

前十中评高频出现词汇:

我爬了《流浪地球》十万个短评得出以下结论

前十差评高频出现词汇:

我爬了《流浪地球》十万个短评得出以下结论

前十高频词汇分析基本没有任何参考价值,基本就是科幻、地球、特效、电影,这些都是电影的基本元素,其它的都是一些中性词汇。

然后,我们分析了11-30的高频词汇,提取了部分关键词:

好评:

我爬了《流浪地球》十万个短评得出以下结论

结论:国产希望好莱坞科幻煽情大片。大家注意一下,前三十高频词汇只出现了刘慈欣的名字,并没有出现吴京的名字。

中评:

我爬了《流浪地球》十万个短评得出以下结论

结论:总体来说还算中肯,不知道为啥会出现三星?原谅我没有读过原著,原来是《三体》中"三恒星"系统。

差评:

我爬了《流浪地球》十万个短评得出以下结论

结论:既然是一星差评,肯定是一黑到底,剧情尴尬、台词尴尬、剪辑尴尬、吴京尴尬,相比于好评中高频出现的原著作者刘慈欣,应该有大部分吴京黑粉。

总结

逼乎上有人做了详细的统计分析,同类评分电影中,小破球的一星占比出奇的高。不管是意识形态还是商业利益,《流浪地球》注定要被美分狗和《战狼》PTSD 患者往死里整。《流浪地球》的评价问题已经不仅仅是一部电影的问题。

有兴趣的小伙伴可以获取源码,自行爬一下:https://gitee.com/52itstyle/Python

转载于:https://blog.51cto.com/itstyle/2354674

这篇关于我爬了《流浪地球》十万个短评得出以下结论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/825463

相关文章

第六章习题11.输出以下图形

🌏个人博客:尹蓝锐的博客 希望文章能够给到初学的你一些启发~ 如果觉得文章对你有帮助的话,点赞 + 关注+ 收藏支持一下笔者吧~ 1、题目要求: 输出以下图形

日本某地发生了一件谋杀案,警察通过排查确定杀人凶手必为4个 嫌疑犯的一个。以下为4个嫌疑犯的供词。

日本某地发生了一件谋杀案,警察通过排查确定杀人凶手必为4个 嫌疑犯的一个。以下为4个嫌疑犯的供词。 A说:不是我。 B说:是C。 C说:是D。 D说:C在胡说 已知3个人说了真话,1个人说的是假话。 现在请根据这些信息,写一个程序来确定到底谁是凶手。  static void Main()         {             int killer = 0;             fo

看病要排队这个是地球人都知道的常识

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍+ 收藏⭐ + 留言​📝唯有付出,才有丰富的果实收获! 看病要排队这个是地球人都知道的常识。 不过经过细心的0068的观察,他发现了医院里排队还是有讲究的。0068所去的医院有三个医生(汗,这么少)同时看病。而看病的人病情有轻重,所以不能根据简单的先来

【无线通信发展史⑧】测量地球质量?重力加速度g的测量?如何推导单摆周期公式?地球半径R是怎么测量出来的?

前言:用这几个问答形式来解读下我这个系列的来龙去脉。如果大家觉得本篇文章不水的话希望帮忙点赞收藏加关注,你们的鼓舞是我继续更新的动力。 我为什么会写这个系列呢? 首先肯定是因为我本身就是一名从业通信者,想着更加了解自己专业的知识,所以更想着从头开始了解通信的来源以及在每一个时代的发展进程。 为什么会从头开始写通信? 我最早是学习了中华上下五千年,应该说朝代史,这个算个人兴趣,从夏

如何为 MongoDB 3.0.4 以下版本选择合适的 PyMongo 版本

在使用 MongoDB 时,开发者通常会使用 Python 的 pymongo 库来与 MongoDB 进行交互。然而,不同版本的 MongoDB 需要匹配相应版本的 pymongo 才能正常运行。如果你的 MongoDB 版本较低(例如 3.0.4 以下),而使用了不兼容的 pymongo 版本,就会遇到连接失败或功能异常的问题。 在这篇文章中,我们将介绍如何为 MongoDB 3.0.4 以

学习Halcon深度学习可以分为以下几个步骤

‌基础准备‌:‌了解深度学习基本概念,‌掌握Halcon软件的基本操作。‌ ‌理论学习‌:‌通过官方文档、‌教程和社区资源,‌学习Halcon中深度学习的原理、‌模型架构和训练方法。‌ ‌实践项目‌:‌参与实际项目,‌通过动手实践来加深理解和提升技能。‌可以从简单的图像分类任务开始,‌逐步扩展到目标检测、‌语义分割等复杂任务。‌ ‌持续学习‌:‌关注Halcon的更新和深度学习领域的新进展,‌不断

遥感技术在环境监测中的应用:揭秘地球变化的天眼

当我们仰望星空,探索宇宙的奥秘时,别忘了脚下的这片土地同样蕴藏着无数未解之谜。遥感技术,这个听起来似乎遥不可及的名字,其实正是我们透视地球环境变化的“天眼”。今天将带大家一探遥感技术如何在环境监测中大显身手,帮助我们更精准地监测和评估这个星球的每一次呼吸与脉动。 什么是遥感技术? 遥感,顾名思义,是从远处感知。它利用安装在卫星、飞机或其他平台上的传感器,捕捉地球表面的电磁辐射信息,包括可见光、

解密虚拟内存0x400000以下的地方

一. 前言   最近看CSAPP时,对以前没有仔细注意的一处知识盲区产生了兴趣,所以进行了深入研究,并写下此文一记录。 二. 问题   二话不说直接上图。下图是CSAPP第七章的虚拟内存分析图。书中提到 在X86-64位Linux系统中,代码段总是从地址0x400000处开始,后面是数据段。堆在数据段之后,通过调用malloc向上增长…   但是0X400000以下呢?为什么没有

法人手机验证通常是为了确保企业相关操作的安全性和合法性。以下是一些常见的法人手机验证方法及测试要点:

一、验证方法   1. 短信验证码   - 系统向法人注册的手机号码发送短信验证码,法人在指定时间内输入验证码进行验证。 - 优点:操作简单,普遍适用。缺点:可能存在短信延迟或被拦截的情况。 2. 语音验证码   - 系统拨打法人手机号码,播放语音验证码,法人听取并输入进行验证。 - 优点:适用于无法接收短信的情况。缺点:可能受通话质量影响。 3. 动态口令   - 通过专门的手机应用生成动

百万豪车同款!上半年交付暴涨5倍,AR HUD强攻20万以下车型

作为人车交互的新窗口,AR HUD的潜能还在不断凸显。 8月初,问界M9通过OTA升级新增AR HUD观影功能,通过三指滑动,能够轻松实现AR HUD与三联屏之间的无缝流转,支持75英寸投射沉浸观看。 这也意味着,继取代仪表盘、融合中控屏和辅助驾驶系统信息等之后,AR HUD的娱乐功能潜能逐步被挖掘。同时,更大的呈现空间、虚像距离,也对AR HUD配套的软件平台和算法提出更高要求。 高工智能