本文主要是介绍爬虫实战之《流浪地球》豆瓣影评分析(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
4. 分析评论数量及评分与时间的关系
首先导入数据,进行一个初步的统计:
import pandas as pd
data = pd.read_csv('doubanliulangdiqiu.csv',encoding ='GB18030')
data['评分'].value_counts()
可以看到这样的情况:
如果没有数据,可以去看爬虫实战之《流浪地球》豆瓣影评分析(一)的爬取过程。
先做一个饼图来分析分布情况,先把评分的值计算命名为num,然后设置字体,绘制饼图,设置小数点的位数,还有给一个标题:
import matplotlib.pyplot as plt
num = data['评分'].value_counts()
plt.rcParams['font.sans-serif'] = "Simhei"
plt.pie(num, autopct="%.2f %%",labels=num.index)
plt.title('《流浪地球》豆瓣短评评分分数分布')
最后是结果:
短评数量与日期的关系
因为之前爬取数据的时候,把时分秒也爬了下来,而这次只需要日期,所以要选择一下。然后用日期排序:
num = data['发表时间'].apply(lambda x: x.split(" ")[0]).value_counts()
num = num.sort_index() # 日期排序
plt.plot(range(len(num)),num) # 刻度与num的长度一致
plt.xticks(range(len(num)),num.index,rotation=90)
plt.grid() # 添加网格背景
最后效果:
这篇关于爬虫实战之《流浪地球》豆瓣影评分析(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!