python模拟登录中国海洋大学教务系统(青果)- 爬取学期所有专业课至excel - 并进行课表排课(二)

本文主要是介绍python模拟登录中国海洋大学教务系统(青果)- 爬取学期所有专业课至excel - 并进行课表排课(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本章内容包含python爬取中国海洋大学教务系统 2021年秋季学期 2018-2020年级所有计算机专业课 至excel。

系列文章目录

第一章 python模拟登录中国海洋大学教务系统(青果)
第二章 爬取学期所有专业课至excel
第三章 课表排课


本来只是想爬个课表,排个课,可惜不能直接爬,需要登录上教务网站,所以就有了第一篇文章。

文章目录

  • 系列文章目录
  • 前言
  • 一、将表格内容写入excel
  • 二、使用循环,爬取2018-2020级的专业课
  • 三、全部代码及运行效果
  • 四、遇到的问题
  • 总结


前言

第一篇已经实现了登录教务网站,并跳转至选课页面,同时也有了页面表格输出。

因为是转专业,每次进入都要选择目标专业,还要选目标年级,很麻烦,所以想一次性把2018级到2020级的专业课都爬下来,之后再用算法排课。


一、将表格内容写入excel

1.先观察选课页面的表格

请添加图片描述
表格中有两列”教学大纲“”教学日历“一直是空的,所以没必要爬下来

再根据上一章爬下来的内容,可以知道表格中有几列隐藏列也是空的,,所以也没必要爬


需要安装库 pip install openpyxl

Python官方库一般使用xlrd库来读取Excel文件,使用xlwt库来生成Excel文件,使用xlutils库复制和修改Excel文件,这三个库只支持到Excel2003。
第三方库openpyxl(可读写excel表),专门处理Excel2007及以上版本产生的xlsx文件,xls和xlsx之间转换容易。

该部分代码:

from openpyxl import load_workbook,Workbookdef get_data(session):
...
...table_node = soup.find_all('td')for table in table_node:if table.has_attr('style') == False:    #不是隐藏列if table.text != "教学大纲" and table.text != "教学日历":if table.has_attr('name'):    #具有属性nameif table['name'] != "jxdg" and table['name'] != "jxrl":      #不是空列sheet.cell(a,b,table.text)      #写入表格else: 				#不具有属性namesheet.cell(a,b,table.text)      #写入表格
...if __name__ == '__main__':try:wb = load_workbook('排课.xlsx')	#加载薄except:wb = Workbook()                 #新建薄sheet = wb.active	#打开簿中第一个表#sheet = wb.create_sheet()	#新建表
...wb.save('排课.xlsx')

二、使用循环,爬取2018-2020级的专业课

循环,传参sel_nj-选择的年级

主要是声明两个全局变量,控制行和列

变量只是一个普通变量,首先在函数外部进行初始化,然后在函数内部通过global关键字呼叫这个变量,就可以实现全局变量的功能了。 ——python中的全局变量(global关键字)

该部分代码:

a=1
b=1def get_data(session, sel_nj):	#选择的年级global aglobal bformdata={
...'sel_nj': sel_nj,#选择的年级2018-2020
...}
...
...for table in table_node:if table.has_attr('style') == False:    #不是隐藏列if table.text != "教学大纲" and table.text != "教学日历":if table.has_attr('name'):    #具有属性nameif table['name'] != "jxdg" and table['name'] != "jxrl":      #不是空列sheet.cell(a,b,table.text)      #写入表格b=b+1	#列加一if table['name'] == "bz":   #该换行了 b=1	#第一列a=a+1	#行加一else:						#不具有属性namesheet.cell(a,b,table.text)      #写入表格b=b+1if table.text == "备注":   #该换行了 b=1a=a+1...
def logon():
...for i in range(2018,2021):get_data(session,i)
...

三、全部代码及运行效果

import requests
from aip import AipOcr
import base64
from hashlib import md5
import json
import re
from bs4 import BeautifulSoup
from time import time#创建新薄 新表
from openpyxl import load_workbook,Workbooka=1
b=1
headers = {'Host': 'jwgl.ouc.edu.cn','Origin': 'http://jwgl.ouc.edu.cn','Referer': 'http://jwgl.ouc.edu.cn/cas/login.action','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36','X-Requested-With': 'XMLHttpRequest','Upgrade-Insecure-Requests': '1',
}#data和headers一样,并没有传全部的项
data = {'randnumber': 'gqzd'
}
#百度智能云-文字识别
def randnumber_ocr(image):APP_ID = ''  # 在百度官网的应用列表中查看APP_IDAPI_KEY = ''  # 在百度官网的应用列表中查看API_KEYSECRET_KEY = ''  # 在百度官网的应用列表中查看SECRET_KEYclient = AipOcr(APP_ID, API_KEY, SECRET_KEY)text = client.basicAccurate(image)if text['words_result_num'] == 1:return text['words_result'][0]['words'].strip()else:return ''def get_data(session, sel_nj):global aglobal burl = 'http://jwgl.ouc.edu.cn/taglib/DataTable.jsp?tableId=6146'
#这个data包含了所有项,但有些其实的非必须的formdata={'initQry': '0','xktype': '2',#选课类型'xh': '',#你的学号'xn': '2021',#学年'xq': '1',#学期-夏0-秋1-春2'nj': '',#你的年级'zydm': '',#你的专业代码'items': '','xnxq': '2021-1',#学年-学期'kcfw': 'Specialty',#课程范围'sel_nj': sel_nj,#选择的年级2018-2020'sel_zydm': '0011',#选择的专业代码'sel_schoolarea': '','sel_cddwdm': '','sel_kc': '','kcmc': ''}
#这个headers必须包含Refererheaders['Referer'] = 'http://jwgl.ouc.edu.cn/student/wsxk.kcbcx.html?menucode=JW130414'
#使用sessionr = session.post(url,data=formdata, headers=headers)soup = BeautifulSoup(r.text, 'html.parser')table_node = soup.find_all('td')for table in table_node:if table.has_attr('style') == False:    #不是隐藏列if table.text != "教学大纲" and table.text != "教学日历":if table.has_attr('name'):    #具有属性nameif table['name'] != "jxdg" and table['name'] != "jxrl":      #不是空列sheet.cell(a,b,table.text)      #写入表格b=b+1if table['name'] == "bz":   #该换行了 b == 15:#23b=1a=a+1else:sheet.cell(a,b,table.text)      #写入表格b=b+1if table.text == "备注":   #该换行了 b == 15:#23b=1a=a+1session.close()def logon():start = time()url = 'http://jwgl.ouc.edu.cn/cas/logon.action'username = ''  # 输入你的用户名,也就是学号password = ''  # 输入你的密码session = requests.Session()#百度智能云-文字识别-获取验证码    randnumber = ''while len(randnumber) != 4:r = session.get('http://jwgl.ouc.edu.cn/cas/genValidateCode', headers=headers)      randnumber = randnumber_ocr(r.content).replace(' ','')#去除空格#构造data-信息加密        password = md5(password.encode('utf-8')).hexdigest()randnumber_s = md5(randnumber.lower().encode('utf-8')).hexdigest()password = md5((password + randnumber_s).encode('utf-8')).hexdigest()
#sessionid是会话的id,一般是存放在cookie中_sessionid = session.cookies.get_dict()['JSESSIONID']username = base64.b64encode(username.encode('utf-8') + b';;' + str(_sessionid).encode('utf-8'))
#randnumber会在之前通过百度智能云文字识别获得data['randnumber'] = randnumberp_username = '_u' + randnumberp_password = '_p' + randnumberdata[p_username] = usernamedata[p_password] = password
#post    r = session.post(url, data=data, headers=headers)
#response    info = json.loads(r.text)status = info['status']if status == '401':print('验证码错误')returnelif status == '200':passelse:print(info['message'])returnprint('登录成功')for i in range(2018,2021):get_data(session,i)end = time()print('总共用时' + str(end - start))if __name__ == '__main__':try:wb = load_workbook('排课.xlsx')	#加载薄except:wb = Workbook()                 #新建薄sheet = wb.active	#打开簿中第一个表#sheet = wb['biaoge_name']	#打开薄中 名字为biaoge_name的表#sheet = wb.create_sheet()	#新建表logon()wb.save('排课.xlsx')

在这里插入图片描述

四、遇到的问题

TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

没连 VPN

    wb= load_workbook('排课.xlsx')#加载薄
NameError: name 'load_workbook' is not defined

要 from openpyxl import load_workbook

    wb.creat_sheet('xinbiao2')
AttributeError: 'Workbook' object has no attribute 'creat_sheet'

create_sheet 拼写错误

	sheet.cell(a,b,table.text)
ValueError: Row or column values must be at least 1

cell 的行和列都要从1开始

KeyError: 'name'

这种 KeyError 错误一般都是因为没有这个东西,
以本程序为例,有些table含有name属性,有些不含,如果不加判断的去写就会报错

只能是 tag.text 和 tag[‘id’]、tag[‘name’]
这个不太确定,看别人有用 tag.id/name
但本程序是 tag.id/name = None


总结

1.全局变量,首先在函数外部进行初始化,然后在函数内部通过global关键字呼叫这个变量。
·a=1·
·def func:·
········global a·

2.python没有a++
·a=a+1·

3.进行解析后,Tag是否具有某种属性
·if table.has_attr('name'): #具有属性name·

4.筛选具有某种属性的Tag
关于python:测试BeautifulSoup中的标签中是否存在属性
·script_tags = soup.find_all('script', some_attribute=True)·

·script_tags = soup.find_all('script', {"some-data-attribute": True})·

5.为什么要from … import …
python中为什么大佬都爱用from import
因为导入包名其实是无法直接使用包内的子包和模块的

6.openpyxl
python之openpyxl模块

openpyxl中有三个不同层次的类Workbook是对工作簿的抽象Worksheet是对表格的抽象Cell是对单元格的抽象每一个类都包含了许多属性和方法
Excel基本操作打开或者创建一个Excel,需要创建一个Workbook对象使用Workbook对象的方法来得到一个Worksheet对象得到Worksheet对象以后再从中获取代表单元格的Cell对象

常用:

·wb = load_workbook('排课.xlsx') #加载薄·

·wb = Workbook() #新建薄·

·sheet = wb.active #打开簿中第一个表·

·sheet = wb['biaoge_name'] #打开薄中 名字为biaoge_name的表·

·sheet = wb.create_sheet() #新建表·

·sheet.cell(行,列,内容) #修改单元格内容·

·wb.save('排课.xlsx') #保存薄·

收获多多 \OoO/

码字不易,感谢点赞评论收藏关注~

这篇关于python模拟登录中国海洋大学教务系统(青果)- 爬取学期所有专业课至excel - 并进行课表排课(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/849508

相关文章

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

linux解压缩 xxx.jar文件进行内部操作过程

《linux解压缩xxx.jar文件进行内部操作过程》:本文主要介绍linux解压缩xxx.jar文件进行内部操作,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、解压文件二、压缩文件总结一、解压文件1、把 xxx.jar 文件放在服务器上,并进入当前目录#

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker