用Python30秒自动获取指定关键词的国际论文?思路清奇的我是这样做的......

2023-11-09 21:59

本文主要是介绍用Python30秒自动获取指定关键词的国际论文?思路清奇的我是这样做的......,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

 

背景

思路

实现方式

一、找到搜索页面

二、获取论文相关的DOI

三、通过DOI匹配出论文的下载地址进行下载

总结


背景

又到了一年一度的毕业季,各路的同学们都在为了参考论文而发愁,本文我们通过Python来获取指定关键词的论文。

思路

本次我们的目标是获取一部分指定关键词的相关论文,首先我们来整理一下思路。

  1. 通过百度学术找到论文的相关搜索页;
  2. 通过详细的搜索页找到论文对应的DOI;
  3. 通过DOI匹配出论文的下载地址进行下载。

实现方式

一、找到搜索页面

因为我们要借助百度学术来获取论文的DOI的值,因此我们先尝试通过百度学术的搜索页构造出可以匹配关键词的URL地址。

百度学术的搜索页URL如下,我们可以发现在URL中可以通过更改关键词(Key)来组合出不同的关键词URL。

导入模块代码:

# 导入所需模块
import requests
import re
import os
from urllib.request import urlretrieve

匹配URL代码:

# 获取URL信息
def get_url(key):url = 'https://xueshu.baidu.com/s?wd=' + key + '&ie=utf-8&tn=SE_baiduxueshu_c1gjeupa&sc_from=&sc_as_para=sc_lib%3A&rsv_sug2=0'return urlget_url('Python')

设置请求头:

# 设置请求头
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36','Referer': 'https://googleads.g.doubleclick.net/'
}

二、获取论文相关的DOI

这一步我们要找到百度学术中提供的DOI信息并进行获取,从百度学术中可以看到的DOI信息如下所示:

通过Python爬取并解析出DOI的方式如下:

# 获取相关论文的DOI列表
def get_paper_link(headers, key):response = requests.get(url=get_url(key), headers=headers)res1_data = response.text#找论文链接paper_link = re.findall(r'<h3 class=\"t c_font\">\n +\n +<a href=\"(.*)\"',res1_data)doi_list = []  #用一个列表接收论文的DOIfor link in paper_link:paper_link = 'http:' + linkresponse2 = requests.get(url=paper_link, headers=headers)res2_data = response2.text#提取论文的DOItry:paper_doi = re.findall(r'\'doi\'}\">\n +(.*?)\n ', res2_data)if str(10) in paper_doi[0]:doi_list.append(paper_doi)except:passreturn doi_lista = get_paper_link(headers,'apple')

三、通过DOI匹配出论文的下载地址进行下载

这一步也是最“神奇”的一步,我们获取到DOI信息之后,可以从网址https://sci-hub.tf/中查找并下载论文,但是通过Python访问网站的时候会发现该网站加入了cloudflare保护(PS:之前没有保护,按照之前的方式教给很多人爬论文后突然加了这个盾,不确定是不是我的功劳。

破盾

有了思路之后,下一步就是破盾了,博主尝试过多种破盾方式均未能成功,甚至联系了专门开发破解Cloudflare保护的Python模块cloudflare-scrape的开发者,得到的回复就是:项目不能使用了!

最后的最后,我发现该网页中上传的文件都是PDF文件,我们只需要构造出pdf文件的url直接下载就无需登陆网站即可成功下载了(往往复杂的事情简单起来都是很可怕的)。最后构造PDF下载链接代码如下:

#构建sci-hub下载链接
def doi_download(headers, key):doi_list = get_paper_link(headers, key)lst = []for i in doi_list:lst.append(list(i[0]))for i in lst:for j in range(8, len(i)):if i[j] == '/':i[j] = '%252F'elif i[j] == '(':i[j] = '%2528'elif i[j] == ')':i[j] = '%2529'else:i[j] = i[j].lower()for i in range(len(lst)):lst[i] = ''.join(lst[i])for doi in lst:down_link = 'https://sci.bban.top/pdf/' + doi + '.pdf'print(down_link)file_name = doi.split('/')[-1] + '.pdf'try:with open(file_name, 'wb') as f:r = requests.get(url=down_link, headers=headers)f.write(r.content)print('下载完毕:' + file_name)except:print("该文章为空")pass

下载模块:

# 检索及下载
key = input("请输入您想要下载论文的关键词(英文):")
doi_download(headers, key)

运行结果:

总结

这里只是做一个简单的尝试用于学习交流,如果想要一次性爬取大量的论文修改百度学术代码块的DOI自动获取即可。

这篇关于用Python30秒自动获取指定关键词的国际论文?思路清奇的我是这样做的......的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/378681

相关文章

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

SpringBoot实现不同接口指定上传文件大小的具体步骤

《SpringBoot实现不同接口指定上传文件大小的具体步骤》:本文主要介绍在SpringBoot中通过自定义注解、AOP拦截和配置文件实现不同接口上传文件大小限制的方法,强调需设置全局阈值远大于... 目录一  springboot实现不同接口指定文件大小1.1 思路说明1.2 工程启动说明二 具体实施2

SpringBoot 获取请求参数的常用注解及用法

《SpringBoot获取请求参数的常用注解及用法》SpringBoot通过@RequestParam、@PathVariable等注解支持从HTTP请求中获取参数,涵盖查询、路径、请求体、头、C... 目录SpringBoot 提供了多种注解来方便地从 HTTP 请求中获取参数以下是主要的注解及其用法:1

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

基于Redis自动过期的流处理暂停机制

《基于Redis自动过期的流处理暂停机制》基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案,防止延时过大的数据影响实时处理自动恢复处理,以避免积压的数据影响实时性,下面就来详... 目录核心思路代码实现1. 初始化Redis连接和键前缀2. 接收数据时检查暂停状态3. 检测到延时过

java -jar example.jar 产生的日志输出到指定文件的方法

《java-jarexample.jar产生的日志输出到指定文件的方法》这篇文章给大家介绍java-jarexample.jar产生的日志输出到指定文件的方法,本文给大家介绍的非常详细,对大家的... 目录怎么让 Java -jar example.jar 产生的日志输出到指定文件一、方法1:使用重定向1、

基于Python实现数字限制在指定范围内的五种方式

《基于Python实现数字限制在指定范围内的五种方式》在编程中,数字范围限制是常见需求,无论是游戏开发中的角色属性值、金融计算中的利率调整,还是传感器数据处理中的异常值过滤,都需要将数字控制在合理范围... 目录引言一、基础条件判断法二、数学运算巧解法三、装饰器模式法四、自定义类封装法五、NumPy数组处理

SpringBoot实现RSA+AES自动接口解密的实战指南

《SpringBoot实现RSA+AES自动接口解密的实战指南》在当今数据泄露频发的网络环境中,接口安全已成为开发者不可忽视的核心议题,RSA+AES混合加密方案因其安全性高、性能优越而被广泛采用,本... 目录一、项目依赖与环境准备1.1 Maven依赖配置1.2 密钥生成与配置二、加密工具类实现2.1