爬虫 | 【实践】Best Computer Science Scientists数据爬取

2023-10-16 22:52

本文主要是介绍爬虫 | 【实践】Best Computer Science Scientists数据爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 📚数据需求
  • 📚数据爬取
    • 🐇排行榜页数据爬取
    • 🐇获取详情页
    • 🐇目标信息提取
  • 📚完整代码与结果

📚数据需求

  • 姓名,国家,学校
    在这里插入图片描述

  • 最有名研究领域
    在这里插入图片描述

  • 目前研究领域
    在这里插入图片描述

  • 共同作者
    在这里插入图片描述

  • D-index、引用、出版物、世界排名、国家排名
    在这里插入图片描述

📚数据爬取

🐇排行榜页数据爬取

# 以for循环实现翻页,总共20页
for page in range(1, 21):# 前缀f表示该字符串是一个格式化字符串,允许我们在字符串中嵌入变量或表达式的值。# 这里嵌入变量page,实现翻页后的url对应url = f"https://research.com/scientists-rankings/computer-science?page={page}"# 获得响应response = requests.get(url=url, headers=headers)# 智能解码response.encoding = response.apparent_encoding# 使用etree.HTML函数将HTML文本转换为可进行XPath操作的树结构对象tree。tree = etree.HTML(response.text)# 提取id为"rankingItems"元素下的所有div子元素的列表div_list = tree.xpath('//*[@id="rankingItems"]/div')
  • 定位到id="rankingItems
    在这里插入图片描述
  • 每一个div是每一条排行记录
    在这里插入图片描述

🐇获取详情页

# 循环取出div_list内容for i in div_list:# 获取当前科学家的详情页地址href = 'https://research.com' + i.xpath('.//div//h4/a/@href')[0]print(href)# 调用等待时间函数,防止宕机random_wait()# 获得详情页响应response_detail = requests.get(url=href, headers=headers)# 智能解码response.encoding = response.apparent_encoding# 使用etree.HTML函数将HTML文本转换为可进行XPath操作的树结构对象tree。tree_detail = etree.HTML(response_detail.text)
  • .//div//h4/a/@href获取对应科学家详情页相关信息,通过href = 'https://research.com' + i.xpath('.//div//h4/a/@href')[0]得到详情页url
    在这里插入图片描述
  • 对应详情页url如下所示
    在这里插入图片描述

🐇目标信息提取

  • 姓名
    # 名字,依次找到htm → body → 第1个div → 第2个div → 第1个div → div → h1元素,匹配文本内容
    # .strip()用于去除文本内容两端的空白字符,包括空格、制表符和换行符。
    name = tree_detail.xpath('/html/body/div[1]/div[2]/div[1]/div/h1/text()')[0].strip()
    
    在这里插入图片描述

  • 国家

    country = tree_detail.xpath('/html/body/div[1]/div[2]/div[1]/div/div/p/a[2]/text()')[0].strip()
    

    在这里插入图片描述


  • 学校

    university = tree_detail.xpath('/html/body/div[1]/div[2]/div[1]/div/div/p/a[1]/text()')[0].strip()
    

    在这里插入图片描述


  • 最有名研究领域

    try:research_field1 = tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[1]/li/text()')[0].strip()research_field2 = tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[1]/li/text()')[1].strip()research_field3 = tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[1]/li/text()')[2].strip()
    except:# 异常处理,有些详情页无对应数据research_field1="无研究领域"research_field2="无研究领域"research_field3 ="无研究领域"
    

    在这里插入图片描述


  • 目前研究领域

    try:
    # 目前研究领域# 将匹配正则表达式pattern的内容替换为空字符串。删除括号及其内部的内容。now_research_field1 = re.sub(pattern, '', tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[4]/li/text()')[0].strip())now_research_field2 = re.sub(pattern, '', tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[4]/li/text()')[1].strip())now_research_field3 = re.sub(pattern, '', tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[4]/li/text()')[2].strip())
    except:now_research_field1="无研究领域"now_research_field2="无研究领域"now_research_field3 ="无研究领域"
    

    在这里插入图片描述


  • 共同作者
    # 共同作者,定位后源码里的第一个div不要
    Frequent_CoAuthors = tree_detail.xpath('/html/body/div[1]/div[4]/div[2]/div/div')[1:]
    # 共同关系的人
    for i in Frequent_CoAuthors:common_name = i.xpath('.//h4/a/text()')[0].strip().replace('\n', '')friend_list.append(common_name)
    # 将共同关系的人拼成一个字符串
    result = ', '.join(friend_list)
    
    • tree_detail.xpath('/html/body/div[1]/div[4]/div[2]/div/div')[1:]——定位到列表框
      在这里插入图片描述
    • i.xpath('.//h4/a/text()')[0].strip().replace('\n', '')——定位到每个人
      在这里插入图片描述

  • 各项数据、排名等

    # 各项数据,排名等等,[-1:]返回匹配结果列表中的最后一个元素
    data_list = tree_detail.xpath('//*[@id="tab-1"]/div/div')[-1:]
    for a in data_list:# D-indexD_index = a.xpath('.//span[2]//text()')[-1].replace(' ', '').replace('\n', '')# 引用Citations = a.xpath('.//span[3]//text()')[-1].replace(' ', '').replace('\n', '').replace(',', '')# 出版物publication = a.xpath('.//span[4]//text()')[-1].replace(' ', '').replace('\n', '').replace(',', '')# 世界排名world_rank = a.xpath('.//span[5]//text()')[-1].replace(' ', '').replace('\n', '')# 国家排名national_rank = a.xpath('.//span[6]//text()')[-1].replace(' ', '').replace('\n', '')
    
    • //*[@id="tab-1"]/div/div——定位到数据表格
      在这里插入图片描述

    • a.xpath('.//span[2]//text()')[-1]——D-index 在这里插入图片描述

    • a.xpath('.//span[3]//text()')[-1]——引用
      在这里插入图片描述

    • a.xpath('.//span[4]//text()')[-1]——出版物
      在这里插入图片描述

    • 世界排名和国家排名

       # 世界排名world_rank = a.xpath('.//span[5]//text()')[-1].replace(' ', '').replace('\n', '')# 国家排名national_rank = a.xpath('.//span[6]//text()')[-1].replace(' ', '').replace('\n', '')
      

      在这里插入图片描述

      在这里插入图片描述

📚完整代码与结果

import requests
from lxml import etree
import openpyxl
import re
import random
import time# 随机等待时间的函数
# 避免以高频率向服务器发送请求造成宕机
def random_wait():# 生成一个随机的等待时间,范围为1到5秒wait_time = random.uniform(1, 5)time.sleep(wait_time)# openpyxl用于操作Excel文件。它允许我们读取、写入和修改Excel文件中的数据。
# 创建一个新的Excel工作簿对象
workbook = openpyxl.Workbook()
# 返回工作簿中的活动工作表对象,表明之后的代码对这个工作表进行操作
worksheet = workbook.active
# 添加标题
worksheet.append(['姓名', '国家', '学校', '最有名研究领域1', '最有名研究领域2', '最有名研究领域3', '目前研究领域1', '目前研究领域2','目前研究领域3', '共同作者', 'D-index', '引用', '出版物', '世界排名', '国家排名'])# 伪装请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/118.0'
}# 以for循环实现翻页,总共20页
for page in range(1, 21):# 前缀f表示该字符串是一个格式化字符串,允许我们在字符串中嵌入变量或表达式的值。# 这里嵌入变量page,实现翻页后的url对应url = f"https://research.com/scientists-rankings/computer-science?page={page}"# 获得响应response = requests.get(url=url, headers=headers)# 智能解码response.encoding = response.apparent_encoding# 使用etree.HTML函数将HTML文本转换为可进行XPath操作的树结构对象tree。tree = etree.HTML(response.text)# 提取id为"rankingItems"元素下的所有div子元素的列表div_list = tree.xpath('//*[@id="rankingItems"]/div')# 循环取出div_list内容for i in div_list:# 获取当前科学家的详情页地址href = 'https://research.com' + i.xpath('.//div//h4/a/@href')[0]print(href)# 调用等待时间函数,防止宕机random_wait()# 获得详情页响应response_detail = requests.get(url=href, headers=headers)# 智能解码response.encoding = response.apparent_encoding# 使用etree.HTML函数将HTML文本转换为可进行XPath操作的树结构对象tree。tree_detail = etree.HTML(response_detail.text)# 用于删除括号及其内部的内容,主要是对后边最近研究领域后续括号内的百分比进行删除pattern = r'\([^()]*\)'# 存取共同作者的列表friend_list = []try:# 名字,依次找到htm → body → 第1个div → 第2个div → 第1个div → div → h1元素,匹配文本内容# .strip()用于去除文本内容两端的空白字符,包括空格、制表符和换行符。name = tree_detail.xpath('/html/body/div[1]/div[2]/div[1]/div/h1/text()')[0].strip()# 国家country = tree_detail.xpath('/html/body/div[1]/div[2]/div[1]/div/div/p/a[2]/text()')[0].strip()# 学校university = tree_detail.xpath('/html/body/div[1]/div[2]/div[1]/div/div/p/a[1]/text()')[0].strip()# 最有名研究领域try:research_field1 = tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[1]/li/text()')[0].strip()research_field2 = tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[1]/li/text()')[1].strip()research_field3 = tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[1]/li/text()')[2].strip()except:# 异常处理,有些详情页无对应数据research_field1="无研究领域"research_field2="无研究领域"research_field3 ="无研究领域"try:# 目前研究领域# 将匹配正则表达式pattern的内容替换为空字符串。删除括号及其内部的内容。now_research_field1 = re.sub(pattern, '', tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[4]/li/text()')[0].strip())now_research_field2 = re.sub(pattern, '', tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[4]/li/text()')[1].strip())now_research_field3 = re.sub(pattern, '', tree_detail.xpath('//*[@class="tab bg-white shadow"]//ul[4]/li/text()')[2].strip())except:now_research_field1="无研究领域"now_research_field2="无研究领域"now_research_field3 ="无研究领域"# 共同作者,定位后源码里的第一个div不要Frequent_CoAuthors = tree_detail.xpath('/html/body/div[1]/div[4]/div[2]/div/div')[1:]# 共同关系的人for i in Frequent_CoAuthors:common_name = i.xpath('.//h4/a/text()')[0].strip().replace('\n', '')friend_list.append(common_name)# 将共同关系的人拼成一个字符串result = ', '.join(friend_list)# 各项数据,排名等等,[-1:]返回匹配结果列表中的最后一个元素data_list = tree_detail.xpath('//*[@id="tab-1"]/div/div')[-1:]for a in data_list:# D-indexD_index = a.xpath('.//span[2]//text()')[-1].replace(' ', '').replace('\n', '')# 引用Citations = a.xpath('.//span[3]//text()')[-1].replace(' ', '').replace('\n', '').replace(',', '')# 出版物publication = a.xpath('.//span[4]//text()')[-1].replace(' ', '').replace('\n', '').replace(',', '')# 世界排名world_rank = a.xpath('.//span[5]//text()')[-1].replace(' ', '').replace('\n', '')# 国家排名national_rank = a.xpath('.//span[6]//text()')[-1].replace(' ', '').replace('\n', '')print(name, country, university, research_field1, research_field2, research_field3, now_research_field1,now_research_field2, now_research_field3, result, D_index, Citations, publication, world_rank, national_rank)# 清空列表friend_list.clear()# 将数据添加到excel表格内worksheet.append([name, country, university, research_field1, research_field2, research_field3, now_research_field1,now_research_field2, now_research_field3, result, D_index, Citations, publication, world_rank, national_rank])# 保存workbook.save('world_data.csv')except:worksheet.append(['无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据', '无数据'])# 保存workbook.save('world_data.csv')

在这里插入图片描述在这里插入图片描述

这篇关于爬虫 | 【实践】Best Computer Science Scientists数据爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/221299

相关文章

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据

《mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据》文章主要介绍了如何从.frm和.ibd文件恢复MySQLInnoDB表结构和数据,需要的朋友可以参... 目录一、恢复表结构二、恢复表数据补充方法一、恢复表结构(从 .frm 文件)方法 1:使用 mysq

mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespace id不一致处理

《mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespaceid不一致处理》文章描述了公司服务器断电后数据库故障的过程,作者通过查看错误日志、重新初始化数据目录、恢复备... 周末突然接到一位一年多没联系的妹妹打来电话,“刘哥,快来救救我”,我脑海瞬间冒出妙瓦底,电信火苲马扁.

golang获取prometheus数据(prometheus/client_golang包)

《golang获取prometheus数据(prometheus/client_golang包)》本文主要介绍了使用Go语言的prometheus/client_golang包来获取Prometheu... 目录1. 创建链接1.1 语法1.2 完整示例2. 简单查询2.1 语法2.2 完整示例3. 范围值

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板

javaScript在表单提交时获取表单数据的示例代码

《javaScript在表单提交时获取表单数据的示例代码》本文介绍了五种在JavaScript中获取表单数据的方法:使用FormData对象、手动提取表单数据、使用querySelector获取单个字... 方法 1:使用 FormData 对象FormData 是一个方便的内置对象,用于获取表单中的键值

mac安装nvm(node.js)多版本管理实践步骤

《mac安装nvm(node.js)多版本管理实践步骤》:本文主要介绍mac安装nvm(node.js)多版本管理的相关资料,NVM是一个用于管理多个Node.js版本的命令行工具,它允许开发者在... 目录NVM功能简介MAC安装实践一、下载nvm二、安装nvm三、安装node.js总结NVM功能简介N

Spring Boot 3 整合 Spring Cloud Gateway实践过程

《SpringBoot3整合SpringCloudGateway实践过程》本文介绍了如何使用SpringCloudAlibaba2023.0.0.0版本构建一个微服务网关,包括统一路由、限... 目录引子为什么需要微服务网关实践1.统一路由2.限流防刷3.登录鉴权小结引子当前微服务架构已成为中大型系统的标

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图