爬取大学排名信息实验报告

本文主要是介绍爬取大学排名信息实验报告，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

爬取大学排名信息实验报告

一、概述

爬虫是一组客户端程序，它的功能是访问web服务器，从服务器中获取网页数据。本次实验是使用urllib.request和BeautifulSoup 库方法定向爬取给定网址的数据，通过解析数据，在屏幕打印出爬取到的大学排名信息。

二、主体

1.本次实验可分为四部分进行，分别为获取网页信息、解析网页数据、打印网页信息、运行主程序。

2.导入urllib.request程序包、bs4文件包以及BeautifulSoup库。

在这里插入图片描述

3.获取网页信息

1)定义函数getHTMLText获取网页信息，给定url地址:

def getHTMLText(url):url = ""https://www.shanghairanking.cn/rankings/bcur/2020"

2)使用urllib.request程序包访问并打开url的网址:

req = urllib.request.Request(url)
data = urllib.request.urlopen(req)

3)读取网页数据信息：

data = data.read()

4)将网页中的二进制数据转换为字符串，转换编码为 UTF-8：

data = data.read().decode()

5)整体代码如下：
在这里插入图片描述

4.解析网页数据

1)定义函数fillUnivList解析网页数据：

 def fillUnivList(list, html):

2)创建BeautifulSoup对象soup,并通过html进行解析：

soup = BeautifulSoup(html, "html.parser")

3)使用soup.find()方法查找标签：

for tr in soup.find('tbody').children:

4)定义列表单独存储标签：

    a = tr('a')tds = tr('td')

5)使用strip()函数，移除字符串头尾指定的字符：

list.append([tds[0].text.strip(), a[0].string.strip(), tds[2].text.strip(),tds[3].text.strip(), tds[4].text.strip()])

6)整体代码如下：
在这里插入图片描述

5.打印网页数据

1)定义函数printUnivList打印输出结果：

 def printUnivList(list1, num):

2)格式化输出数据：

 tplt = "{0:  ^10}\t{1:  ^10}\t{2:  ^12}{3:  ^10}\t{4:  ^10}"print(tplt.format("排名", "学校名称", "省份", "学校类型", "总分"))

3)打印结果：

 for i in range(num):u = list1[i]print(tplt.format(u[0], u[1], u[2], u[3], u[4]))print()

4)统计打印结果：

  print("以上共有记录" + str(num) + "条。")

5)整体代码如下：
在这里插入图片描述

6.运行程序

1)定义函数main：

 def main():

2)定义列表：

 uinfo = []

3)url地址：

 url = "https://www.shanghairanking.cn/rankings/bcur/2020"

4)调用函数：

html = getHTMLText(url)
fillUnivList(uinfo, html)
printUnivList(uinfo, 30)

5)整体代码如下：
在这里插入图片描述
6)运行结果如下：
30条记录:

前10条记录：
在这里插入图片描述

三、总结

通过本次实验，我将学习到的理论知识落实在实践上，加深了我对urllib.request和BeautifulSoup 库方法的理解，学习了程序包爬取数据的使用方法，了解了BeautifulSoup处理数据的过程。通过运用两种库方法，我成功爬取到给定网址上的大学排名信息，并顺利打印在屏幕上。

这篇关于爬取大学排名信息实验报告的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

爬取大学排名信息实验报告

一、概述

二、主体

三、总结

相关文章

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

SpringBoot如何对密码等敏感信息进行脱敏处理

springboot实现配置文件关键信息加解密

Go语言开发实现查询IP信息的MCP服务器

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

Linux下如何使用C++获取硬件信息

一文详解SQL Server如何跟踪自动统计信息更新

Python如何获取域名的SSL证书信息和到期时间

Win32下C++实现快速获取硬盘分区信息

Python如何实现PDF隐私信息检测