【春晚鬼畜】B站日排行最高,赵本山:我的时代还没有结束……

2023-11-03 21:59

本文主要是介绍【春晚鬼畜】B站日排行最高,赵本山:我的时代还没有结束……,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif

作者 | 丁彦军

来源 | 恋习Python

640?wx_fmt=png

这是恋习Python之手把手系列第9篇原创首发文章

1990年本山老师首次登上中央电视台春节联欢晚会舞台,在春晚舞台给我们留下很多深入人心的作品如《相亲》,《我想有个家》,《昨天今天明天》,到2011年最后一次在春晚舞台表演小品,,22个年头陪我们度过了21个大年夜,每次都期待大叔的压轴出场伴随着零点的钟声一起跨年。

640?wx_fmt=jpeg

20年里本山老师的影响力是毋庸置疑的,但是小平不是单口相声更不是独角戏,他的成功也是离不开搭档的配合,大家最熟悉的搭档应该是范伟何高秀敏。三个人作为黄金搭档也是演绎了许多经典作品比如《卖拐》,《买车》,《功夫》等。

640?wx_fmt=jpeg

除了范伟和高秀敏,最令人印象深刻的搭档就是宋丹丹了,虽然合作的不是特别多但是二人合作的《昨天今天明天》和《小崔说事》太深入人心,白云黑土成了大家最喜爱的大叔大妈但宋丹丹多次说过上春晚太累,短期应该不会在合作了吧。

640?wx_fmt=jpeg

最近你有没有被“改革春风吹满地, 中国人民真争气”魔性的旋律所洗脑?这段视频一经发布,就迅速攻占“快手”“抖音”等各大短视频平台,近日临近春节,仿佛又开始爆发,俨然已经从2018年末火到了2019年初。

恐怕连赵本山本人也不敢相信,自己这么多年演的小品,被人剪辑改变成鬼畜神曲《念诗之王》后,这些经典台词焕发了第二春。《念诗之王》在B站播放量高达2400万,本山大叔,即便已经七八年没上春晚了,依然是毋庸置疑的高人气IP!

接下来,恋习Python通过Python大法通过获取B站:【春晚鬼畜】赵本山:我就是念诗之王!(https://www.bilibili.com/video/av19390801/)4万条数据评论,与大家一起看看其背后火起来的原因。

还是老规矩,老套路(是不是有股熟悉的味道),恋习Python常用的三部曲:数据获取、数据清洗预览、数据分析可视化。

一、数据获取

在获取视频评论之前,我们首要做的就是分析其网页结构,寻找目标数据(也就是我们要的评论数据在哪里,这点很重要)

640?wx_fmt=png

640?wx_fmt=png

最终发现,目标数据的url链接为:

https://api.bilibili.com/x/v2/reply?&type=1&oid=19390801&pn=1

由上图可看出,其评论数据是以json数据形式存在于网页端的,可看出一共有1946页评论,每页评论20条,总评论63579条(楼层下面存在评论)。今天恋习Python与大家一起主要是爬取楼层评论,共1940*20=38920条。

接下来,就爬取思路很明确,从一个JSON文件开始,爬完20条评论,更改路径后获取第二个JSON文件,以此类推,直到爬完所有的评论数据。

我们主要爬取的数据信息有8个维度,如下:

640?wx_fmt=jpeg

详细代码:

import requests
from fake_useragent import UserAgent
import json
import time
import pandas as pd#下载网页评论数据
def get_page_json(url):try:ua = UserAgent(verify_ssl=False)headers = {"User-Agent": ua.random}json_comment = requests.get(url,headers=headers).textreturn json_commentexcept:return None#解析网页评论数据
def parse_page_json(json_comment):try:comments = json.loads(json_comment)except:return "error"comments_list = []#获取当页数据有多少条评论(一般情况下为20条)num = len(comments['data']['replies'])for i in range(num):comment = comments['data']['replies'][i]comment_list = []floor = comment['floor']ctime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(comment['ctime']))#时间转换likes = comment['like']author = comment['member']['uname']sex = comment['member']['sex']level = comment['member']['level_info']['current_level']content = comment['content']['message'].replace('\n','')#将评论内容中的换行符去掉#print(content)rcount = comment['rcount']comment_list.append(floor)comment_list.append(ctime)comment_list.append(likes)comment_list.append(author)comment_list.append(sex)comment_list.append(level)comment_list.append(content)comment_list.append(rcount)comments_list.append(comment_list)save_to_csv(comments_list)def save_to_csv(comments_list):data = pd.DataFrame(comments_list)#注意存储文件的编码为utf_8_sig,不然会乱码,后期会单独深入讲讲为何为这样(如果为utf-8)data.to_csv('春晚鬼畜_1.csv', mode='a', index=False, sep=',', header=False,encoding='utf_8_sig')def main():base_url = "https://api.bilibili.com/x/v2/reply?&type=1&oid=19390801&pn=1"#通过首页获取评论总页数pages = int(json.loads(get_page_json(base_url))['data']['page']['count'])//20for page in range(pages):url = "https://api.bilibili.com/x/v2/reply?&type=1&oid=19390801&pn="+str(page)json_comment = get_page_json(url)parse_page_json(json_comment)print("正在保存第%d页" % int(page+1))if page%20 == 0:time.sleep(5)main()

其中主要涉及到两个知识点:

1、通过fake_useragent生成随机UserAgent

不管是做开发还是做过网站的朋友们,应该对于User Agent一点都不陌生,User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等

通过UA来判断不同的设备或者浏览器是开发者最常用的方式方法,这个也是对于Python反爬的一种策略,但是有盾就有矛啊---我的矛就是让抓取行为和用户访问网站的真实行为尽量一致。

忽略ssl验证:ua = UserAgent(verify_ssl=False)

2、Chrome控制台中Network的Preview的正确用法

Response:

640?wx_fmt=png

Preview:

640?wx_fmt=png

一般情况下我们看Network里面的Preview和Response的结果似乎一模一样。不管是请求页面,请求页面还是请求js还是请求css,二者的结果都一样。直到今天从服务器端向web前端发送一段json格式的数据,才发现Preview的特殊功效。在Preview(预览功能)中,控制台会把发送过来的json数据自动转换成javascript的对象格式。而且可以层层展开,方便前端工程师遍历调用(特别是在多维的情况下),也方便我们Python爬虫工程师解析JSON数据。

二、数据清洗预览

由于我们在解析数据时已经将数据处理过,因此下载存为的数据已经干净,没有杂乱信息。恋习Python从中整理出Top10评论:

640?wx_fmt=png

从上述评论中也可看出,第三、第四评论内容都是与春晚有关,也可以看出网友对本山大叔回归春晚的期待。看着视频,一句“改革春风吹满地”,回荡在脑海中几天都挥之不去。心里默念着:本山大叔要是能上春晚,该多好啊!

备注:由于篇幅过长,具体分析就不详讲了,分析思路可参考之前文章:

三、后记

在经过全民的参与和发酵过后,各种版本一应而出,尤其是英文版,押韵之余无人能敌!

我只想借这首鬼畜歌曲,回忆一下本山大叔曾经带给我们的欢乐,尤其是那些郎朗上口的台词。文章的最后我想用一句话总结一下,那就是——“我十分想念赵本山!”

你们期待有赵本山的春晚吗

点赞或评论告诉小编吧

万水千山总是情,点个「好看」行不行。

◆ ◆ ◆  ◆ ◆

长按二维码关注我们


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,让管理员帮忙拉进群,期待大家的加入。

管理员二维码:

猜你喜欢

● 

● 

这篇关于【春晚鬼畜】B站日排行最高,赵本山:我的时代还没有结束……的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/341144

相关文章

豆包 MarsCode 不允许你还没有女朋友

在这个喧嚣的世界里,爱意需要被温柔地唤醒。为心爱的她制作每日一句小工具,就像是一场永不落幕的浪漫仪式,每天都在她的心田播撒爱的种子,让她的每一天都充满甜蜜与期待。 背景 在这个瞬息万变的时代,我们都在寻找那些能让我们慢下来,感受生活美好的瞬间。为了让这份浪漫持久而深刻,我们决定为女朋友定制一个每日一句小工具。这个工具会在她意想不到的时刻,为她呈现一句充满爱意的话语,让她的每一天都充满惊喜和感动

内卷时代无人机培训机构如何做大做强

在当今社会,随着科技的飞速发展,“内卷”一词频繁被提及,反映了各行业竞争日益激烈的现象。对于无人机培训行业而言,如何在这样的时代背景下脱颖而出,实现做大做强的目标,成为每个培训机构必须深思的问题。以下是从八个关键方面提出的策略,旨在帮助无人机培训机构在内卷时代中稳步前行。 1. 精准定位市场需求 深入研究市场:通过市场调研,了解无人机行业的最新趋势、政策导向及未来发展方向。 明确目标

如何保证android程序进程不到万不得已的情况下,不会被结束

最近,做一个调用系统自带相机的那么一个功能,遇到的坑,在此记录一下。 设备:红米note4 问题起因 因为自定义的相机,很难满足客户的所有需要,比如:自拍杆的支持,优化方面等等。这些方面自定义的相机都不比系统自带的好,因为有些系统都是商家定制的,难免会出现一个奇葩的问题。比如:你在这款手机上运行,无任何问题,然而你换一款手机后,问题就出现了。 比如:小米的红米系列,你启用系统自带拍照功能后

安装SQL2005后SQL Server Management Studio 没有出来的解决方案

一种情况,在安装 sqlServer2005 时 居然出现两个警告: 1 Com+ 目录要求 2 Edition change check 郁闷!网上说出现两个警告,是肯定装不成功的!我抱着侥幸的态度试了下,成功了。 安装成功后,正准备 “ 仅工具、联机丛书和示例(T)” 但是安装不了,他提示我“工作站组件”安装过了对现有组件无法更新或升级。 解决办法: 1 打开“控

淘应用宣告结束 U站后来居上

目前,输入淘宝买家应用中心(yingyong.taobao.com)原有域名后将直接跳转至淘宝U站,而淘江湖则合并至“我的淘宝”。 据了解,所谓appkey是供淘宝客调用淘宝商家的数据,优站导航能够很方便的使淘宝客在自己的网站里显示淘宝卖家的商品详情。此次调整意味着,淘宝客所调用的数据接口将不再支持淘宝U站中心和淘江湖。 淘宝方面解释,此次调整主要源于淘宝优站中心(含原淘宝U站业务)已于201

src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录

(venv) shgbitai@shgbitai-C9X299-PGF:~/pythonworkspace/ai-accompany$ pip install pyaudio sounddeviceCollecting pyaudioDownloading PyAudio-0.2.14.tar.gz (47 kB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

adb shell 执行后台程序后断开adb后台进程被结束的解决办法

环境:Android 版本 Android8 通常让程序后台执行就是在命令 最后加上 &即可,但是在Android 8上实验发现,程序的确后台了,但是拔掉USB线再连接上发现进程已结束。不确定Android早期版本是否存在此问题。 参考网上一些Linux方法,如加nohup 仍然无效,还是会结束。看来Android adb shell 与 Linux shell 还是有一定区别。 后来在网上

html记账本改写:数据重新布局,更好用了,没有localStorage保存版本

<!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8"><title>htm记账本</title><style>table {user-select: none;/* width: 100%; */border-collapse: collapse;}table,th,td {border: 1px solid bla

八大建筑央企实力排行-你打算进哪一家?

第八名:中国化学 营收:1584.37亿元 中国化学业务覆盖建筑工程、环境治理、工艺工程技术开发等服务。通过持续创新和精细化管理,积极推进多个工程领域的全过程服务和产业运营、资本运营,实现公司的持续发展。 第七名:中国能建 营收:3663.93亿元 中国能源建设集团是一家为中国乃至全球能源电力、基础设施等行业提供发展方案和服务的综合性特大型集团公司,连续9年进入世界500强,业务遍布世界140多个

vite是如何实现依赖预构建的,浏览器为什么没有实现从node_modules查找依赖,vite开发环境解决了什么问题

浏览器的esmodule 为什么没有做从node_modules查找依赖项 浏览器是基于http请求的,node_modules中依赖项不可控,可能又会依赖很多的包,整个依赖图都需要加载的话很耗性能。 commonjs是运行在服务端的,以file形式读取文件,内部有规避机制。 依赖预构建 首先vite会找到对应的依赖,然后调用esbuild(对js语法进行处理的一个库),将其他规范的代码转换