获取知网摘要与PDF文件

2024-09-03 12:32
文章标签 pdf 获取 摘要 知网

本文主要是介绍获取知网摘要与PDF文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

进入知网网址:http://www.cnki.net/
搜索知网关键词,例如离在岸人民币
在这里插入图片描述
顺序获取各文章题目和摘要,并优先进行PDF下载,如果没有PDF就进行CAJ下载,信息保存在items列表里。
在这里插入图片描述
下面为实现代码

# -*- coding: utf-8 -*-
"""
Created on Sun May 12 10:28:10 2019@author: Administrator
"""from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import time
import sys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECclass Item(object):title = None    #更:论文名value = None   #更:数据内容def zhi(keyword='quantile',num=10,show=True,url='http://www.cnki.net/',download=False):#keyword为关键词,num为爬取页数,show为是否可视chrome_options = Options()chrome_options.add_argument('--no-sandbox')#解决DevToolsActivePort文件不存在的报错chrome_options._arguments = ['disable-infobars']#去掉谷歌浏览器正在被自动测试控制字样chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率chrome_options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bugchrome_options.add_argument('--hide-scrollbars') #隐藏滚动条, 应对一些特殊页面chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度
# =============================================================================
#     #改变下载路径
#     prefs = {"download.default_directory": r'C:\Users\Administrator\Desktop'}
#     chrome_options.add_experimental_option("prefs", prefs)
# =============================================================================##加载用户信息的谷歌浏览器chrome_options.add_argument("--user-data-dir="+r"C:\Users\Administrator\AppData\Local\Google\Chrome\User Data") if not show : chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败driver = webdriver.Chrome(chrome_options=chrome_options)  # 调用带参数的谷歌浏览器  driver.maximize_window() #窗口最大化driver.get(url)print('正在加载界面....')wait = WebDriverWait(driver, 15)     wait.until(EC.presence_of_element_located((By.ID, "txt_SearchText"))).send_keys(keyword)#driver.find_element_by_id("txt_SearchText").send_keys('quantile')driver.find_element_by_xpath("//input[@class='search-btn' and @type='button']").click()#等待搜索结果显示wait.until(EC.presence_of_element_located((By.ID, "CDMD")))driver.switch_to.frame(1)i=0while True:for n in range(2,22):ye = i*20+n-1if ye > num : if download :input('请输入quit,使程序结束')driver.quit()sys.exit()wait.until(EC.presence_of_element_located((By.XPATH,'//tr[{}]//a[@class="fz14"]'.format(n)))).click()  #切换到最新窗口windows=driver.window_handles  #获得当前浏览器所有窗口driver.switch_to.window(windows[-1]) #切换到最新打开窗口(注:也就是全部课程这个窗口)try: title = wait.until(EC.presence_of_element_located((By.XPATH, "//h2[contains(@class,'title')]")))item = Item()if download :try :try : driver.find_element_by_id("pdfDown").click()except :driver.find_element_by_id("cajDown").click()driver.switch_to.window(windows[-1])except :print('警告:第{}页第{}个标题为:{}\n无法下载'.format(i+1,ye,title.text))try : summary = driver.find_element_by_id("ChDivSummary") item.value = summary.textexcept :print('警告:第{}页第{}个标题为:{}\n不存在摘要'.format(i+1,ye,title.text))item.title = title.textitems.append(item)except :   print('第%s个未加载成功'%ye)#time.sleep(3)driver.close()#windows=driver.window_handles  #获得当前浏览器所有窗口driver.switch_to.window(windows[0])driver.switch_to.frame(1)#下一页#driver.switch_to_default_content()wait.until(EC.presence_of_element_located((By.XPATH, '//a[@title="键盘的“← →”可以实现快速翻页"][last()]'))).click()print('提示:第{}页第{}个标题为:{}已收录成功'.format(i+1,ye,title.text))i += 1
if __name__ == '__main__':    #开始计时start=time.perf_counter()items=[]zhi('离在岸人民币',num=1,download=True)#结束计时end=time.perf_counter()total=(end-start)/60#计算结束时间current=time.time()current_time=time.localtime(current)h=current_time[3]h2=current_time[4]if h<10 : h='0'+str(h)if h2<10 : h2='0'+str(h2)print('-----------------程序已运行结束-----------------')print ('注:程序共运行%.2f分钟,结束时间:%s:%s' %(total,h,h2))

这篇关于获取知网摘要与PDF文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1132966

相关文章

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

Android Environment 获取的路径问题

1. 以获取 /System 路径为例 /*** Return root of the "system" partition holding the core Android OS.* Always present and mounted read-only.*/public static @NonNull File getRootDirectory() {return DIR_ANDR

PDF 软件如何帮助您编辑、转换和保护文件。

如何找到最好的 PDF 编辑器。 无论您是在为您的企业寻找更高效的 PDF 解决方案,还是尝试组织和编辑主文档,PDF 编辑器都可以在一个地方提供您需要的所有工具。市面上有很多 PDF 编辑器 — 在决定哪个最适合您时,请考虑这些因素。 1. 确定您的 PDF 文档软件需求。 不同的 PDF 文档软件程序可以具有不同的功能,因此在决定哪个是最适合您的 PDF 软件之前,请花点时间评估您的

JS和jQuery获取节点的兄弟,父级,子级元素

原文转自http://blog.csdn.net/duanshuyong/article/details/7562423 先说一下JS的获取方法,其要比JQUERY的方法麻烦很多,后面以JQUERY的方法作对比。 JS的方法会比JQUERY麻烦很多,主要则是因为FF浏览器,FF浏览器会把你的换行也当最DOM元素。 <div id="test"><div></div><div></div

vcpkg子包路径批量获取

获取vcpkg 子包的路径,并拼接为set(CMAKE_PREFIX_PATH “拼接路径” ) import osdef find_directories_with_subdirs(root_dir):# 构建根目录下的 "packages" 文件夹路径root_packages_dir = os.path.join(root_dir, "packages")# 如果 "packages"

Weex入门教程之4,获取当前全局环境变量和配置信息(屏幕高度、宽度等)

$getConfig() 获取当前全局环境变量和配置信息。 Returns: config (object): 配置对象;bundleUrl (string): bundle 的 url;debug (boolean): 是否是调试模式;env (object): 环境对象; weexVersion (string): Weex sdk 版本;appName (string): 应用名字;

MFC中App,Doc,MainFrame,View各指针的互相获取

纸上得来终觉浅,为了熟悉获取方法,我建了个SDI。 首先说明这四个类的执行顺序是App->Doc->Main->View 另外添加CDialog类获得各个指针的方法。 多文档的获取有点小区别,有时间也总结一下。 //  App void CSDIApp::OnApp() {      //  App      //  Doc     CDocument *pD

android两种日志获取log4j

android   log4j 加载日志使用方法; 先上图: 有两种方式: 1:直接使用架包 加载(两个都要使用); 架包:android-logging-log4j-1.0.3.jar 、log4j-1.2.15.jar  (说明:也可以使用架包:log4j-1.2.17.jar)  2:对架包输入日志的二次封装使用; 1:直接使用 log4j 日志框架获取日志信息: A:配置 日志 文

17 通过ref代替DOM用来获取元素和组件的引用

重点 ref :官网给出的解释是: ref: 用于注册对元素或子组件的引用。引用将在父组件的$refs 对象下注册。如果在普通DOM元素上使用,则引用将是该元素;如果在子组件上使用,则引用将是组件实例: <!-- vm.$refs.p will be the DOM node --><p ref="p">hello</p><!-- vm.$refs.child will be the c