爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐

本文主要是介绍爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01前言

上一篇文章以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码,爬起更多的内容并保存到csv。

总共爬取1907条『课程学习』数据,分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示!

02数据获取

程序是接着以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』进行完善,所以不清楚的可以先看一下这篇文章(详细讲述Scrapy入门,并以『B站』为案例进行实战编程)

1.各个scrapy文件

items文件

class BiliItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()#pass# 视频标题title = scrapy.Field()# 链接url = scrapy.Field()# 观看量watchnum = scrapy.Field()# 弹幕数dm = scrapy.Field()# 上传时间uptime = scrapy.Field()# 作者upname = scrapy.Field()

增加了四个字段(观看量、弹幕数、上传时间、作者)

lyc文件

class LycSpider(scrapy.Spider):name = 'lyc'allowed_domains = ['bilibili.com']start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']# 爬取的方法def parse(self, response):item = BiliItem()# 匹配for jobs_primary in response.xpath('//*[@id="all-list"]/div[1]/ul/li'):item['title'] = (jobs_primary.xpath('./a/@title').extract())[0]item['url'] = (jobs_primary.xpath('./a/@href').extract())[0]item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace("\n", "").replace(" ", "")item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace("\n", "").replace(" ", "")item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace("\n", "").replace(" ", "")item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]# 不能使用returnyield item# 获取当前页的链接url = response.request.url#page +1new_link = url[0:-1]+str(int(url[-1])+1)# 再次发送请求获取下一页数据yield scrapy.Request(new_link, callback=self.parse)

为新增的四个字段进行网页标签解析

pipelines文件

import csvclass BiliPipeline:def __init__(self):#打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除self.f = open("lyc大学课程.csv", "a", newline="")# 设置文件第一行的字段名,注意要跟spider传过来的字典key名称相同self.fieldnames = ["title", "url","watchnum","dm","uptime","upname"]# 指定文件的写入方式为csv字典写入,参数1为指定具体文件,参数2为指定字段名self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames)# 写入第一行字段名,因为只要写入一次,所以文件放在__init__里面self.writer.writeheader()def process_item(self, item, spider):# print("title:", item['title'][0])# print("url:", item['url'][0])# print("watchnum:", item['watchnum'][0].replace("\n","").replace(" ",""))# print("dm:", item['dm'][0].replace("\n", "").replace(" ", ""))# print("uptime:", item['uptime'][0].replace("\n", "").replace(" ", ""))# print("upname:", item['upname'][0])print("title:", item['title'])print("url:", item['url'])print("watchnum:", item['watchnum'])print("dm:", item['dm'])print("uptime:", item['uptime'])print("upname:", item['upname'])# 写入spider传过来的具体数值self.writer.writerow(item)# 写入完返回return itemdef close(self, spider):self.f.close()

将爬取的内容保存到csv文件(lyc大学课程.csv)

2.启动scrapy

scrapy crawl lyc

通过上述命令可以启动scrapy项目

3.爬取结果

一共爬取1914条数据,最后经过简单清洗最终可用数据1907条!

03数据分析

1.大学生学习视频播放量排名

读取数据

dataset  = pd.read_csv('Bili\\lyc大学课程.csv',encoding="gbk")
title = dataset['title'].tolist()
url = dataset['url'].tolist()
watchnum = dataset['watchnum'].tolist()
dm = dataset['dm'].tolist()
uptime = dataset['uptime'].tolist()
upname = dataset['upname'].tolist()

数据处理

#分析1:  & 分析2
def getdata1_2():watchnum_dict = {}dm_dict = {}for i in range(0, len(watchnum)):if "万" in watchnum[i]:watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)else:watchnum[i] = int(watchnum[i])if "万" in dm[i]:dm[i] = int(float(dm[i].replace("万", "")) * 10000)else:dm[i] = int(dm[i])watchnum_dict[title[i]] = watchnum[i]dm_dict[title[i]] = dm[i]###从小到大排序watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))#分析1:大学生学习视频播放量排名"analysis1(watchnum_dict,"大学生学习视频播放量排名")

数据可视化

def pie(name,value,picname,tips):c = (Pie().add("",[list(z) for z in zip(name, value)],# 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标# 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度center=["35%", "50%"],).set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色.set_global_opts(title_opts=opts.TitleOpts(title=""+str(tips)),legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render(str(picname)+".html"))

分析

  1. 【片片】《人间课堂》播放量最高,播放量:202万。

  2. 在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。

2.大学生学习视频弹幕量排名

数据处理

watchnum_dict = {}
dm_dict = {}
for i in range(0, len(watchnum)):if "万" in watchnum[i]:watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)else:watchnum[i] = int(watchnum[i])if "万" in dm[i]:dm[i] = int(float(dm[i].replace("万", "")) * 10000)else:dm[i] = int(dm[i])watchnum_dict[title[i]] = watchnum[i]dm_dict[title[i]] = dm[i]###从小到大排序
watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
#分析2:大学生学习视频弹幕量排名
analysis1(dm_dict,"大学生学习视频弹幕量排名")

数据可视化

###饼状图
def pie(name,value,picname,tips):c = (Pie().add("",[list(z) for z in zip(name, value)],# 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标# 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度center=["35%", "50%"],).set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色.set_global_opts(title_opts=opts.TitleOpts(title=""+str(tips)),legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render(str(picname)+".html"))

分析

  1. 在弹幕数排行中《数据结构与算法基础》最高,弹幕数:33000

  2. 通过弹幕量的排行来看,可以看到大家都喜欢在什么样的课堂视频上留言

  3. 与播放量对比,大学生喜欢在课堂内容学习视频上进行发言!

3.up主大学生学习视频视频数

数据处理

#分析3: up主大学生学习视频视频数
def getdata3():upname_dict = {}for key in upname:upname_dict[key] = upname_dict.get(key, 0) + 1###从小到大排序upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0]))itemNames = []datas = []for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1):itemNames.append(upname_dict[i][0])datas.append(upname_dict[i][1])#绘图bars(itemNames,datas)

数据可视化

###柱形图
def bars(name,dict_values):# 链式调用c = (Bar(init_opts=opts.InitOpts(  # 初始配置项theme=ThemeType.MACARONS,animation_opts=opts.AnimationOpts(animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果))).add_xaxis(xaxis_data=name)  # x轴.add_yaxis(series_name="up主昵称", yaxis_data=dict_values)  # y轴.set_global_opts(title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数',  # 标题配置和调整位置title_textstyle_opts=opts.TextStyleOpts(font_family='SimHei', font_size=25, font_weight='bold', color='red',), pos_left="90%", pos_top="10",),xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)),# 设置x名称和Label rotate解决标签名字过长使用yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),).render("up主大学生学习视频视频数.html"))

分析

  1. 在大学课程视频的up主中,up主视频中与大学课堂有关的视频数排行

  2. 在大学课程视频数排行中,视频数最多的是:小白在学习呢

4.大学课程名称词云化

数据处理

text = "".join(title)
with open("stopword.txt","r", encoding='UTF-8') as f:stopword = f.readlines()
for i in stopword:print(i)i = str(i).replace("\r\n","").replace("\r","").replace("\n","")text = text.replace(i, "")

数据可视化

word_list = jieba.cut(text)
result = " ".join(word_list)  # 分词用 隔开
# 制作中文云词
icon_name = 'fab fa-qq'
"""
# icon_name='',#国旗
# icon_name='fas fa-dragon',#翼龙
icon_name='fas fa-dog',#狗
# icon_name='fas fa-cat',#猫
# icon_name='fas fa-dove',#鸽子
# icon_name='fab fa-qq',#qq
"""
gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name="大学课程名称词云化.png")  # 必须加中文字体,否则格式错误

分析

  1. 北京大学清华大学的课程为主,课程标题含有着两个大学的居多。

  2. 这些视频标题中大多数以:基础公开课课件考研大学物理等关键词。

04总结

1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。

2.对数据进行可视化展示以及凝练精简分析。

3.可能数据还有更多未分析或者挖掘的信息,欢迎在下方留言,提出你宝贵的建议

4.本文数据和代码在下方,欢迎自取!!!

如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:大学课程分析 ,获取完整代码和数据。

------------- 推荐文章 -------------

1·以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』


2.python爬取各类基金数据,以『动图可视化』方式展示基金的涨跌情况


3.python爬取『大年初一』热映电影,以『可视化及词云秀』方式带你了解热映电影


4.爬虫遇到反爬机制怎么办? 看看我是如何解决的!

这篇关于爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/189798

相关文章

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左

python中Hash使用场景分析

《python中Hash使用场景分析》Python的hash()函数用于获取对象哈希值,常用于字典和集合,不可变类型可哈希,可变类型不可,常见算法包括除法、乘法、平方取中和随机数哈希,各有优缺点,需根... 目录python中的 Hash除法哈希算法乘法哈希算法平方取中法随机数哈希算法小结在Python中,

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

Java Stream的distinct去重原理分析

《JavaStream的distinct去重原理分析》Javastream中的distinct方法用于去除流中的重复元素,它返回一个包含过滤后唯一元素的新流,该方法会根据元素的hashcode和eq... 目录一、distinct 的基础用法与核心特性二、distinct 的底层实现原理1. 顺序流中的去重