爬取软科-中国大学排行榜

2023-11-07 05:50

本文主要是介绍爬取软科-中国大学排行榜,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬取软科中国大学排行榜

在这里插入图片描述
要求最后得到的文本爬取的格式如下
在这里插入图片描述

import requestsr=requests.get('http://www.shanghairanking.cn/rankings/bcur/2020')r.status_coder.encoding=r.apparent_encodingr.text
##输出展示文本
school=r.textfrom bs4 import BeautifulSoupsoup=BeautifulSoup(school,'html.parser')soup.tbodysoup.find_all('tbody')[0].find_all('tr')[0].find_all('td')[0].string.replace('\n','').replace(' ','')
##输出“1”
soup.find_all('tbody')[0].find_all('tr')[0].find_all('td')[1].a.string
##'清华大学'
soup.find_all('tbody')[0].find_all('tr')[0].find_all('td')[2].string.replace('\n','').replace(' ','')
##‘北京’
soup.find_all('tbody')[0].find_all('tr')[0].find_all('td')[3].string.replace('\n','').replace(' ','')
##‘综合’
soup.find_all('tbody')[0].find_all('tr')[0].find_all('td')[4].string.replace('\n','').replace(' ','')
##‘852.5’
soup.find_all('tbody')[0].find_all('tr')[0].find_all('td')[5].string.replace('\n','').replace(' ','')
##'38.2'

整理,利用for循环输出排名

for t in soup.find_all('tbody')[0].find_all('tr'):print(t.find_all('td')[0].string.replace('\n','').replace(' ',''),t.find_all('td')[1].a.string,t.find_all('td')[2].string.replace('\n','').replace(' ',''),t.find_all('td')[3].string.replace('\n','').replace(' ',''),t.find_all('td')[4].string.replace('\n','').replace(' ',''),t.find_all('td')[5].string.replace('\n','').replace(' ',''))

在这里插入图片描述
完成输出,具体导出呈txt或相关文件,可以看一下美团或者相亲的那个导出方法。

这篇关于爬取软科-中国大学排行榜的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/361670

相关文章

[图]12大编程语言收入排行榜

计算机软件开发或者说程序员工作已经成为收入最高的职业之一。BI最近的一份报告显示,近两年美国软件工程师的平均年薪已经接近10万美元(下图),与之相比欧洲的软件工程师的收入要少得多,平均年薪月5.5万美元,不过比去年同期增长了9%,呈现上升势头。 但值得注意的是,不同编程语言技巧的市场价值不同,最近Quartz对编程语言的价值进行评估后给出了收入最高的12个编程语言排行榜。Quar

全球AI产品Top100排行榜

Web Top50的榜单里,AIGC类型的应用占比52%,遥遥领先。AIGC类型包括图像、视频、音乐、语音等的内容生成和编辑。音乐生成应用Suno在过去六个月中的排名跃升最为显著,从第36位上升至第5位。排名第二大类是通用对话/AI聊天/角色扮演类型的应用,占比20%,包括常见的ChatGPT、Claude、Character.ai等。其他是AI写作(8%)、AI搜索/问答(6%)、Agent/

0基础学习爬虫系列:网页内容爬取

1.背景 今天我们来实现,监控网站最新数据爬虫。 在信息爆炸的年代,能够有一个爬虫帮你,将你感兴趣的最新消息推送给你,能够帮你节约非常多时间,同时确保不会miss重要信息。 爬虫应用场景: 应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情

python网络爬虫(五)——爬取天气预报

1.注册高德天气key   点击高德天气,然后按照开发者文档完成key注册;作为爬虫练习项目之一。从高德地图json数据接口获取天气,可以获取某省的所有城市天气,高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters,若要获取某城市的天气推荐 2.安装MongoDB

最新!全国电力设计院排行榜!跳槽必看!

近日,权威机构电规协发布《2023年电力勘测设计行业统计分析与报告》,这个报告整整160页,看得是头昏眼花。 这个报告内容很多,整理出最关心和最关键的数据,展示给读者们。 要说大家最关心的肯定是排名啦,立马安排上,大家可以看看是否有自家公司,没有的赶紧跳槽哈,就照这个排名投简历。 一起看看全国电力设计院排行榜前十名吧: 1. 新签合同额前十名单位(入围门槛290.97亿元)分别为: 中国

10款好用的文件加密软件排行榜|文件加密管理软件推荐(合集篇)

某企业在疫情期间实行远程办公政策,所有员工通过公司提供的VPN访问内部系统。为了保障数据安全,然而,某位员工为了加快工作进度,将文件下载到个人电脑上进行编辑。 在一次在线会议中,员工不慎将这份未加密的文件通过非加密的邮件服务发送给外部合作伙伴,导致核心商业计划泄露,给公司带来了巨大的竞争风险。 从以上案例可见,在当今数字化时代,给文件加密都是不可或缺的。无论是个人用户还是企业用户,选择一款

【python】—— Python爬虫实战:爬取珠海市2011-2023年天气数据并保存为CSV文件

目录 目标 准备工作 爬取数据的开始时间和结束时间 爬取数据并解析 将数据转换为DataFrame并保存为CSV文件         本文将介绍如何使用Python编写一个简单的爬虫程序,以爬取珠海市2011年至2023年的天气数据,并将这些数据保存为CSV文件。我们将涉及到以下知识点: 使用requests库发送HTTP请求使用lxml库解析HTML文档使用dateti

scrapy 设置爬取深度 (七)

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。深度大于设置值的将被ignore。       如图:

scrapy自动多网页爬取CrawlSpider类(五)

一.目的。 自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。   二.热身。 1.CrawlSpider (1)概念与作用: 它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。 ࿰

Scrapy ——自动多网页爬取(抓取某人博客所有文章)(四)

首先创建project:   [python]  view plain  copy     转存失败重新上传取消<