爬虫:python采集豆瓣影评信息并进行数据分析

2023-10-28 06:59

本文主要是介绍爬虫:python采集豆瓣影评信息并进行数据分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:最近比较有时间,替一个同学完成了一个简单的爬虫和数据分析任务,具体的要求是爬取复仇者联盟4 的豆瓣影评信息并进行简单的数据分析,这里的数据分析指的是提取关键词并进行词云分析以及按照时间进行热度分析,分析比较简单,后续可以继续完善。

首先,献上数据采集和分析的结果。

短评数据

按照该同学的要求,只采集了1000条数据,有需要更多数据的同学可自行修改采集的限制即可

下面,我们就来详细描述下如何完成数据采集和数据分析的工作的

首先,爬虫的第一步,分析页面元素,打开网页,按下F12,查看数据请求

 

从上往下,依次寻找,我们可以发现数据就存在于第一个请求中

我们可以分析下这个请求,点击翻页,多请求几个页面

 

我们可以知道他的翻页规律是由start和limit这两个参数来控制的,start表示第几页,limit表示每页多少条

知道他的分页规律后,我们需要定位我们需要采集的元素,我们这里需要采集短评内容、发布人信息、评价指数、评价时间,赞同数等

这里我们选择的是etree+xpath解析数据,这里我给大家演示下如何定位短评内容,我们采用浏览器上的选中元素的功能,选中元素后,查看元素的位置

 

分析对应的html元素,首先找到改元素最可靠的顶级元素,这里我们可以很容易的发现这个元素是位于id="comments"这个div元素下面,一般而言,以id为准的元素不会发生太大的变化,接着,我们继续往下找,找到对应元素的上级中比较可靠的元素,比如class,这里有个小技巧,我们可以利用浏览器的$x方法验证我们的xpath是否正确,像下面这样

 

这样我们就可以很容易的采集到短评数据了,代码如下

def start_spider(self):result_list = []for i in range(0,50):start = ireponse = requests.get(self.target_url.format(start),headers=self.headers)# print(reponse.text)html = etree.HTML(str(reponse.content,'utf-8'))# 短评列表short_list = html.xpath('//div[@id="comments"]/div[@class="comment-item"]//span[@class="short"]/text()')print(short_list)times = html.xpath('//div[@class="comment-item"]//span[@class="comment-info"]/span[2]/@class')complte_times = html.xpath('//div[@class="comment-item"]//span[@class="comment-info"]/span[3]/@title')votes = html.xpath('//div[@class="comment-item"]//div[@class="comment"]/h3/span[@class="comment-vote"]/span[@class="votes"]/text()') # 赞同量

采集了短评数据,我们还需要采集发布人的一些其他信息,比如注册时间,常驻城市等等

因此我们需要根据这个链接去用户的主页完成信息采集

 

采集的原理也是一样,利用xpath解析网页数据,不过这个链接需要注意的是,需要登录后才能请求,我这个爬虫里面的解决办法是利用cookie,

当我们用账户登录后,随便查看一个请求,都能发现我们的cookie信息

 

直接复制这段请求到请求的header里就行

代码如下

headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",'Cookie': 'll="118281"; bid=1E8tHh1UO7k; __utma=30149280.787827060.1593838175.1593838175.1593838175.1; __utmc=30149280; __utmz=30149280.1593838175.1.1.utmcsr=so.com|utmccn=(referral)|utmcmd=referral|utmcct=/link; ap_v=0,6.0; _vwo_uuid_v2=DFE5584FB8092E19E1C48ACB6A8C99E62|d5d4f0c4ca4c47a6ddcacacff97040ad; __gads=ID=5490f395fcb95985:T=1593838190:S=ALNI_Mbd_y4lD5XgT1pqnwj9gyQQasX2Nw; dbcl2="218965771:ytN/j1jGo58"; ck=7U_Q; __guid=236236167.3893834060458141000.1593840219409.0322; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1593840220%2C%22https%3A%2F%2Faccounts.douban.com%2Faccounts%2Fpassport%2Fregister%22%5D; _pk_ses.100001.8cb4=*; push_noty_num=0; push_doumail_num=0; __utmt=1; __utmv=30149280.21896; __yadk_uid=5q5tgoXkHZk2p7qqUcXhzcqZF8yK4kpa; monitor_count=4; _pk_id.100001.8cb4=a34ccb6950d8365b.1593840220.1.1593840306.1593840220.; __utmb=30149280.9.10.1593838175'}

 

            # 用户链接列表user_list = html.xpath('//div[@id="comments"]/div[@class="comment-item"]//span[@class="comment-info"]/a/@href')for i in range(len(user_list)):url = user_list[i]item = {'short':self.clear_character_chinese(str(short_list[i]))}reponse = requests.get(url,headers=self.headers)html = etree.HTML(reponse.text)city = html.xpath('//div[@class="user-info"]/a/text()')join_date = html.xpath('//div[@class="user-info"]/div[@class="pl"]/text()')if(city != None):if(len(city) > 0):item['city'] = self.clear_character_chinese(city[0])else:continueif(join_date != None):if(len(join_date)>1):item['join_date'] = self.clear_character_chinese(join_date[1]).replace("加入","")elif(len(join_date)>0):item['join_date'] = self.clear_character_chinese(join_date[0]).replace("加入","")else:continueuser_name = html.xpath('//div[@class="info"]/h1/text()')

爬虫的代码基本就这些,我们这里是存储为excel文件,代码如下

    # # 保存数据到excel文件def saveToCsv(self,data):print(data)wb = Workbook()ws = wb.activews.append(['短评内容','评分','赞同量','评价日期','评价时间', '用户名', '常住地址','注册时间'])for item in data:line = [item['short'], item['time'],item['vote'],item['complete_time'],item['detail_time'], item['userName'],item['city'],item['join_date']]ws.append(line)wb.save('douban.xlsx')

保存的数据如开篇所示

获得了数据之后,我们利用wordcloud进行词云分析,分别分析出全部、好评、中评、差评等数据的词云,代码如下

    # 读取短评内容def read_short_data(self,word_type):data = []workbook1=load_workbook('douban.xlsx')sheet=workbook1.get_sheet_by_name("Sheet")count = 0for row in sheet.iter_rows():if(count == 0):count = 1continueprint(row[0].value)short = row[0].valueshort_type = row[1].valueif (word_type == 1):if (int(short_type)<40):continueelif(word_type == 2):if (int(short_type)>=40 or int(short_type)<=20):continueelif(word_type == 3):if (int(short_type)>20):continueshort = self.clean_stopwords(short)data.append(short)return ";".join(data)def generWord(self,word_type):# 查询数据content = self.read_short_data(word_type)msg = "全部"if(word_type == 1):msg = "好评"elif(word_type == 2):msg = "中评"elif(word_type == 3):msg = "差评"self.get_image(content,"douban_{}.png".format(msg))# 生成词云def get_image(self,data,savePath):text  = self.trans_CN(data)wordcloud = WordCloud(background_color="white",font_path = "C:\\Windows\\Fonts\\msyh.ttc").generate(text)# image_produce = wordcloud.to_image()# image_produce.show()wordcloud.to_file(savePath)

词云出来的结果如下所示

分析了词云,我们接着完成时间分析,因为采集的数据太少,分析结果不是很好,代码如下

   # 时间分析def group_by(self,column):workbook1=load_workbook('douban.xlsx')sheet=workbook1.get_sheet_by_name("Sheet")count = 0item={}for row in sheet.iter_rows():if(count == 0):count = 1continueprint(row[0].value)join_time = row[column].valueif (column == 4):join_time_str = join_time.split(':')[0]join_time = int(join_time_str)if(join_time in item):item[join_time] = item[join_time]+1else:item[join_time] = 1x = []y = []for i in sorted (item) : if(column == 4):join_time = str(int(i))+'点至'+str(int(i)+1)+'点'x.append(join_time)else:x.append(i)y.append(item[i])if(column == 4):plt.xlabel('日期')else:plt.xlabel('时刻')plt.ylabel('短评数量')print(y)plt.plot(x, y)plt.xticks(x, x, rotation=30)if(column == 4):plt.title('短评数量随着时刻的变化关系')else:plt.title('短评数量随着日期的变化关系')plt.rcParams['font.sans-serif'] = 'SimHei'plt.rcParams['axes.unicode_minus'] = Falseif(column == 4):plt.savefig('group_bytime.png')else:plt.savefig('group_bydate.png')

这里只分析了短评数量的变化,实际上数据中还有很多可以分析的内容,分析结果如下

通过这两个分析结果,我们可以大致看出,复仇者联盟这部电影关心的人数随着时间的推进,下降很多,这说明大家都是奔着第一天的热度去的,毕竟被剧透了就没啥好看的了,分析这个时刻的变化,发现人们都喜欢在深夜2、3点的时候进行评价,可能夜猫子比较多,由于这只是一个学生的简单作业,就没有做太多的分析工作。

以上就是本文的全部内容,如果需要完整源码的可联系站长或者访问右侧的爬虫开源项目,上面有该项目的完整代码及分析结果,如果对你有帮助,不妨star一下

本文首发于

爬虫:python采集豆瓣影评信息并进行数据分析

 

这篇关于爬虫:python采集豆瓣影评信息并进行数据分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/291495

相关文章

Python实现AVIF图片与其他图片格式间的批量转换

《Python实现AVIF图片与其他图片格式间的批量转换》这篇文章主要为大家详细介绍了如何使用Pillow库实现AVIF与其他格式的相互转换,即将AVIF转换为常见的格式,比如JPG或PNG,需要的小... 目录环境配置1.将单个 AVIF 图片转换为 JPG 和 PNG2.批量转换目录下所有 AVIF 图

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

详解如何通过Python批量转换图片为PDF

《详解如何通过Python批量转换图片为PDF》:本文主要介绍如何基于Python+Tkinter开发的图片批量转PDF工具,可以支持批量添加图片,拖拽等操作,感兴趣的小伙伴可以参考一下... 目录1. 概述2. 功能亮点2.1 主要功能2.2 界面设计3. 使用指南3.1 运行环境3.2 使用步骤4. 核

Python 安装和配置flask, flask_cors的图文教程

《Python安装和配置flask,flask_cors的图文教程》:本文主要介绍Python安装和配置flask,flask_cors的图文教程,本文通过图文并茂的形式给大家介绍的非常详细,... 目录一.python安装:二,配置环境变量,三:检查Python安装和环境变量,四:安装flask和flas

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

基于Python打造一个可视化FTP服务器

《基于Python打造一个可视化FTP服务器》在日常办公和团队协作中,文件共享是一个不可或缺的需求,所以本文将使用Python+Tkinter+pyftpdlib开发一款可视化FTP服务器,有需要的小... 目录1. 概述2. 功能介绍3. 如何使用4. 代码解析5. 运行效果6.相关源码7. 总结与展望1

使用Python实现一键隐藏屏幕并锁定输入

《使用Python实现一键隐藏屏幕并锁定输入》本文主要介绍了使用Python编写一个一键隐藏屏幕并锁定输入的黑科技程序,能够在指定热键触发后立即遮挡屏幕,并禁止一切键盘鼠标输入,这样就再也不用担心自己... 目录1. 概述2. 功能亮点3.代码实现4.使用方法5. 展示效果6. 代码优化与拓展7. 总结1.

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Python基础文件操作方法超详细讲解(详解版)

《Python基础文件操作方法超详细讲解(详解版)》文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,:本文主要介绍Python基础文件操作方法超详细讲解的相... 目录一、文件操作1. 文件打开与关闭1.1 打开文件1.2 关闭文件2. 访问模式及说明二、文件读写1.

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown