使用Python爬取BNUZ TMS系统的考试科目信息

2024-03-11 22:20

本文主要是介绍使用Python爬取BNUZ TMS系统的考试科目信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近TMS系统又提前放出了考试科目信息,但是找不到半年前写的Java爬虫了T_T,没办法,就拿刚学的Python再写一个吧。

  • TMS系统:教学管理系统
  • Python版本:3.6
  • 使用第三方库:requests

1. 进行模拟登陆

登陆表单分析

通过分析登录页可以发现登陆的表单除了usernamepassword以外,还有一个_csrf,这个字段除了表面上的防止CSRF攻击,还有一个重要的作用——防止表单重复提交,这个字段在进行GET请求登录页时便与session绑定,所以也说明爬虫必须维护登陆状态,否则就没办法爬到信息。

(1) session.py - 维护登陆状态

# 欺骗用Headers
headers = {'Connection': 'keep-alive','Accept': 'application/json, text/plain, */*','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9,ja;q=0.8',
}# 启动Session,自动响应Set-Cookie头
session = requests.Session()# 将Headers设置到session中
session.headers.update(headers)# 使用session发起GET请求
def get(url, **kwargs):return session.get(url, **kwargs)# 使用session发起POST请求
def post(url, params=None, **kwargs):return session.post(url, params, **kwargs)

使用requests.Session()创建一个Session对象,该对象能自动响应Set-Cookie,并且也能将JSESSIONID放入Request HeaderCookie当中,所以使用这个就能解决登陆状态的保持问题。

当然看来系统也做了一点防爬虫的措施,需要伪造一下header,在浏览器中执行一次登陆,然后把header拿过来就可以了,使用session.headers.update(headers)使每次请求都带上这些header。

登陆Header

(2) login.py - 获取登录页内容、模拟登陆

首先需要GET一下登录页,除了获取_csrf字段以外,还可以拿到Set-Cookie,使得CSRF Token和Session在服务端进行了绑定。

# 解析登陆页的HTML,用于获取表单中的CSRF Token
class MyHtmlParser(HTMLParser):def __init__(self):super().__init__()self._token = None# CSRF Token@propertydef token(self):return self._tokendef error(self, message):passdef handle_starttag(self, tag, attrs):# 从标签中获取属性值def _attr(attrName):for attr in attrs:if attr[0] == attrName:return attr[1]return None# 获取表单中的CSRF Token# input -> id="csrf_token":if tag == "input":for name, value in attrs:if name == "id" and value == "csrf_token":self._token = _attr("value")# 获取CSRF Token,用于进行安全验证
def getCsrfToken():response = session.get(loginUrl)parser = MyHtmlParser()parser.feed(response.text)parser.close()return parser.token

通过继承HTMLParser,并且重写handle_starttag去获取_csrf,并且将值设置为类属性,这样就能在GET请求后获取到Token的值了。

然后就可以将_csrf连同账号密码一起提交了,requests会自动处理好各种302重定向,如果账号密码正确则登陆成功,否则会跳到登陆失败页(登录页后缀多了?error)。

# 登陆TMS系统
def login():token = getCsrfToken()# 获取账号与密码username = input("输入教务账号:")password = input("输入教务密码:")data = {'username': username,'password': password,'_csrf': token}# 执行登陆response = session.post(loginUrl, data)if response.url == loginFailUrl:print("账号或密码错误!")return Falseelse:print("登陆成功")return True

2. 爬取内容

通过分析教室使用情况这个页面,可以看出全部请求都是异步的,并且都是访问的RESTful API,那么问题就很简单了,直接爬API就行了。

# 教室使用情况API的基础URL
baseUrl = "http://tm.bnuz.edu.cn/api/"# 教学楼API URL
buildingsUrl = baseUrl + "place/buildings"# 教室API URL
placesUrl = buildingsUrl + "/:building/places"# 教室使用情况API URL
usagesUrl = placesUrl + "/:place/usages"

通过分析请求可以得到以上3个API,从教学楼到教室使用情况,层层叠加的API,那么先把请求的函数写出来。

# 获取教学楼
def getBuildings():response = session.get(buildingsUrl)return response.json()# 获取教室
def getPlaces(building):url = placesUrl.replace(":building", building)response = session.get(url)return response.json()# 获取教室使用情况
def getUsages(building, place):url = usagesUrl.replace(":building", building).replace(":place", place)response = session.get(url)return response.json()

Building API返回内容
Place API返回内容
Usage API 返回内容

通过分析可以知道:

  • Building API中的Building字段是所有的教学楼
  • Place API需要Building的名字,返回教学楼下的教室列表
  • Usage API需要Building的名字与Place的ID,返回使用情况列表

再继续分析Usage API的返回内容,可以发现进行考试的type : ks,其他字段的意思也很好猜,description就是考试科目名等等,然后期末的考试周是在17-18周,所以进行三层for嵌套,最后进行if判断是否为期末考试科目就能完成这个爬虫。

# 打印考试周的考试科目
def printTestClass():print("开始获取考试科目信息...\n")buildings = getBuildings()for building in buildings['buildings']:places = getPlaces(building)for place in places:usages = getUsages(building, place["id"])for usage in usages:startWeek = usage["startWeek"]_type = usage["type"]if _type == "ks" and startWeek == 18 or startWeek == 19:placeName = place["name"]department = usage["department"]subject = usage["description"]dayOfWeek = usage["dayOfWeek"]startSection = usage["startSection"]totalSection = usage["totalSection"]endSection = startSection + totalSection - 1print("{} {} {} 第{}周 星期{} 第{} - {}节".format(department, subject, placeName,startWeek,dayOfWeek,startSection, endSection))print("\n考试科目获取完毕,祝您愉快 >_+<")

项目源码:bnuz_tms_usages_crawler

这篇关于使用Python爬取BNUZ TMS系统的考试科目信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/799260

相关文章

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2

Python安装时常见报错以及解决方案

《Python安装时常见报错以及解决方案》:本文主要介绍在安装Python、配置环境变量、使用pip以及运行Python脚本时常见的错误及其解决方案,文中介绍的非常详细,需要的朋友可以参考下... 目录一、安装 python 时常见报错及解决方案(一)安装包下载失败(二)权限不足二、配置环境变量时常见报错及

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Java数字转换工具类NumberUtil的使用

《Java数字转换工具类NumberUtil的使用》NumberUtil是一个功能强大的Java工具类,用于处理数字的各种操作,包括数值运算、格式化、随机数生成和数值判断,下面就来介绍一下Number... 目录一、NumberUtil类概述二、主要功能介绍1. 数值运算2. 格式化3. 数值判断4. 随机

Python创建Excel的4种方式小结

《Python创建Excel的4种方式小结》这篇文章主要为大家详细介绍了Python中创建Excel的4种常见方式,文中的示例代码简洁易懂,具有一定的参考价值,感兴趣的小伙伴可以学习一下... 目录库的安装代码1——pandas代码2——openpyxl代码3——xlsxwriterwww.cppcns.c