(已更新)获取CSDN访问量、排名等信息存入JSON文件并绘图进行分析

本文主要是介绍(已更新)获取CSDN访问量、排名等信息存入JSON文件并绘图进行分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


运行环境: Python3.6Pycharm2017.2Windows10 RS4
GitHub地址:https://github.com/IMWoolei/CSDN_GetRange


前言

我的CSDN博客是今年八月份才开始写的,写博客的主要目的是对近期学习的知识点进行总结。在写博客的过程中也开始关注博客访问量、排名等等信息。
因为正在练习爬虫技巧,所以我写了一个爬虫程序来获取我的CSDN博客访问量、排名、原创文章数、评论数这四个信息。

  • 初级目标是将其存入jsoncsv文件中
  • 最终目标是通过将收集的数据可视化来查看其关系。

正文

获取CSDN访问量、排名等信息

  • 我们通过电脑浏览器任意一篇CSDN博文,发现如果不是排名靠前的博客排名上显示的是千里之外,而不是具体的排名名次。但是在移动端显示时能够正常显示名次,所以这次我爬取的是移动端的网页
    移动端
  • 为了方便将获取的信息存储并访问,所以将其存入json文件中,json的数据格式和字典dict类型一致,所以调用访问极为方便。

获取信息代码示例

from urllib.request import Request, urlopen
from bs4 import BeautifulSoupurl = 'http://m.blog.csdn.net/IMW_MG'   # 移动端即为子域名m.blog.csdn.net
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}request = Request(url, headers=header)
response = urlopen(request)
bsObj = BeautifulSoup(response, 'lxml') 
info_list = bsObj.find('ul', {'class': 'personal_list'}).findAll('li') # 需要获取的信息全部存在于<ul></ul>标签中
info_dict = {}
for item in info_list:info_dict[item.find('span').get_text()] = int(item.find('em').get_text()) 
print(info_dict)    # 运行结果
{'访问': 19836, '排名': 70241, '原创': 46, '评论': 8}

将获取信息存入json文件中

将获取信息存入json文件中完整代码

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
import json
import time# 获取当前访问量
def getInfo():url = 'http://m.blog.csdn.net/IMW_MG'   # 移动端即为子域名m.blog.csdn.netheader = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}request = Request(url, headers=header)response = urlopen(request)bsObj = BeautifulSoup(response, 'lxml')info_list = bsObj.find('ul', {'class': 'personal_list'}).findAll('li')info_dict = {}for item in info_list:info_dict[item.find('span').get_text()] = int(item.find('em').get_text())return info_dict# 12-02 凌晨更新:之前写入文本的是错误的JSON格式,现在做了一些修改
def writeData():# global info_time# info_time = {}fmt = "%Y-%m-%d %H:%M"  # 格式化时间显示info_dict = getInfo()info_time[time.strftime(fmt, time.localtime())] = info_dictprint(info_time)info_json = json.dumps(info_time, ensure_ascii=False)with open('CSDN_info.json', 'w', encoding='utf8') as json_file:  # 注意编码问题,否则中文无法正常显示json_file.write(info_json)json_file.close()if __name__ == "__main__":writeData()

为了获取访问量、排名信息走势,所以必然应该长时间定时获取博客信息。
所以我们应该将该程序定时执行,定时执行又分两种:

  • 直接修改代码定时执行相关代码块

    • 循环+延时,也是最简单粗暴的,可以在__main__引用模块中修改为如下:

      if __name__ == "__main__":import sys, timecount = 1while True:try:print("第 %d 次获取排名信息" % count)writeData()count += 1time.sleep(60)except Exception:print('产生出错,获取信息终止')sys.exit()
    • sched来定时执行任务【链接】

    • 直接使用time模块定时执行
    • ….
  • 在系统中执行脚本使其定时执行

    • Linux系统中可以向crontab中添加任务来做到定时执行,比如在我的树莓派Linux系统中编辑 vim /etc/crontab,在其末尾加入以下任务:
      
      # 10分钟执行一次py代码,并将产生信息存入Run.log文件中,10 *    * * *   root   /usr/bin/python3 /home/pi/Desktop/CSDN/CSDN_Info.py > /home/pi/Desktop/CSDN_Info/Run.log
    
    # 使定时任务生效sudo /etc/init.d/cron restart
    • Windows系统中创建Python定时任务可以参考这篇博客【链接】

收集数据可视化

关于数据可视化这一块,其实就是想把上面得到的数据绘制成折线图。
折线图的绘制我用到的是matplotlib模块,早就听说这个模块功能的强大,尝试了一下果然还是不太好入门,一下午的时间在设置x轴字体大小上差点弄到崩溃,所以我就弄了点皮毛现学现卖。

在使用matplotlib模块绘制图表可以参考以下两篇博文:
– 使用Python matplotlib绘制股票走势图:http://www.jdon.com/idea/matplotlib.html
python使用matplotlib绘制折线图教程:http://www.jb51.net/article/104916.htm

首先附上完整代码

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
from pylab import *
import matplotlib.pyplot as plt
import json
import time
import sys# 获取当前访问量
def getInfo():url = 'http://m.blog.csdn.net/IMW_MG'header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}request = Request(url, headers=header)response = urlopen(request)bsObj = BeautifulSoup(response, 'lxml')info_list = bsObj.find('ul', {'class': 'personal_list'}).findAll('li')info_dict = {}for item in info_list:info_dict[item.find('span').get_text()] = int(item.find('em').get_text())return info_dictdef writeData():# global info_time# info_time = {}fmt = "%Y-%m-%d %H:%M"  # 格式化时间显示info_dict = getInfo()info_time[time.strftime(fmt, time.localtime())] = info_dictprint(info_time)info_json = json.dumps(info_time, ensure_ascii=False)with open('CSDN_info.json', 'w', encoding='utf8') as json_file:  # 注意编码问题,否则中文无法正常显示json_file.write(info_json)print(info_json)json_file.close()def drawChart(filename):matplotlib.use('Agg')mpl.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体,否则中文显示乱码with open(filename, 'r', encoding='utf8') as file:info_time = json.loads(file)  # 读取json数据# 因为不懂matplotllib,所以只好获取列表来绘制date = []  # 用于存时间view_coun = []  # 用于存访问量ranking_coun = []  # 用于存放排名article_coun = []  # 存放原创文章数comment_coun = []  # 评论数for key in info_time.keys():date.append(key)view_coun.append(info_time[key]['访问'])ranking_coun.append(info_time[key]['排名'])article_coun.append(info_time[key]['原创'])comment_coun.append(info_time[key]['评论'])fig = plt.figure(figsize=(20, 7))  # 设置图表大小fig.suptitle('我的CSDN博客信息\n', fontsize=18, fontweight='bold')  # 设置图表大标题(18号、加粗)axes_view = fig.add_subplot(1, 3, 1)  # 第一个子图表,绘制访问量axes_ranking = fig.add_subplot(1, 3, 2)  # 第二个子图表,绘制名次信息axes_article = fig.add_subplot(1, 3, 3)  # 第三个子图表,绘制文章原创数变化# axes_comment = fig.add_subplot(2, 2, 4)# 下面绘制子图表的代码冗余得无法入目,时间太晚了,先做到实现基本功能,之后再继续更新优化axes_view.set_title('访问量变化')  # 设置子图表标题for label in axes_view.xaxis.get_ticklabels():  # 每一个x轴标签设置倾斜30度以方便查看label.set_rotation(30)axes_view.set_ylabel('访问量', fontsize=9)  # 设置y轴axes_view.plot(date, view_coun, marker='o', mec='r', mfc='w')  # 绘制折线并设置样式axes_ranking.set_title('排名变化')for label in axes_ranking.xaxis.get_ticklabels():label.set_rotation(30)axes_ranking.set_ylabel('访问量', fontsize=9)axes_ranking.plot(date, ranking_coun, marker='*', mec='r', mfc='w')axes_article.set_title('原创文章变化')for label in axes_article.xaxis.get_ticklabels():label.set_rotation(30)axes_view.set_ylabel('访问量', fontsize=9)axes_article.plot(date, article_coun, marker='v', mec='r', mfc='w')fig.savefig('我的CSDN博客信息.jpg')   # 将绘制的图表保存# plt.show()if __name__ == "__main__":count = 1info_time = {}  # 创建一个全局字典变量用于存储信息while True:try:print("第 %d 次获取排名信息" % count)writeData()time.sleep(3600)drawChart('CSDN_Info.json')  # 绘制json文件中信息的图表count += 1time.sleep(3600)except Exception:print('产生出错,获取信息终止')sys.exit()

效果展示

  • 获取的JSON数据效果展示
    json

  • 生成的折线图效果展示
    chart

简单的数据分析

  • 最后也来分析一下吧,虽然说单天的数据不具有完全的代表性
    • 访问量增长幅度最快的还是白天,早上6:00之后增长速度大于深夜的增长速度,这也是符合常理的,毕竟晚上还翻CSDN的人是少数。
    • 原创文章的增加会带来访问量的变化,在文章数越多的情况下,这种变化越不明显。
    • 排名更新较慢,到了晚上才更新了一次排名信息

这篇关于(已更新)获取CSDN访问量、排名等信息存入JSON文件并绘图进行分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/662537

相关文章

Java中使用Hutool进行AES加密解密的方法举例

《Java中使用Hutool进行AES加密解密的方法举例》AES是一种对称加密,所谓对称加密就是加密与解密使用的秘钥是一个,下面:本文主要介绍Java中使用Hutool进行AES加密解密的相关资料... 目录前言一、Hutool简介与引入1.1 Hutool简介1.2 引入Hutool二、AES加密解密基础

Python 迭代器和生成器概念及场景分析

《Python迭代器和生成器概念及场景分析》yield是Python中实现惰性计算和协程的核心工具,结合send()、throw()、close()等方法,能够构建高效、灵活的数据流和控制流模型,这... 目录迭代器的介绍自定义迭代器省略的迭代器生产器的介绍yield的普通用法yield的高级用法yidle

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

SpringSecurity6.0 如何通过JWTtoken进行认证授权

《SpringSecurity6.0如何通过JWTtoken进行认证授权》:本文主要介绍SpringSecurity6.0通过JWTtoken进行认证授权的过程,本文给大家介绍的非常详细,感兴趣... 目录项目依赖认证UserDetailService生成JWT token权限控制小结之前写过一个文章,从S

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,