一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件

本文主要是介绍一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:https://blog.csdn.net/lcz200/article/details/80813988

动机

    计算机视觉领域会议近年来论文接收数量暴增,论文多得看不过来。偶尔想起来,会兴致勃勃去下载个几篇看看。但每次看都要去官网下载,挺麻烦的。为何不直接把论文全部爬下来,有空时直接翻出来看?这篇博客要干的就是这个事情。

说明

    以防万一有同学看到最后发现该博客解决不了自己问题,这里先说明一下,以下的所有操作都是在ubuntu下进行的,windows下不能直接用,但是可以参考一下。

具体操作

    1. 写脚本,爬论文。

说到写爬论文脚本,有些同学可能会觉得有点麻烦。其实爬某个网页下的指定格式的文件并不麻烦。比如cvpr 2018年的论文所在网站为http://openaccess.thecvf.com/CVPR2018.py,这个爬论文的脚本只需一行代码:

wget --level=1 --recursive --no-parent --accept pdf,PDF http://openaccess.thecvf.com/CVPR2018.py

 直接将这行代码贴在终端中运行或者将这行代码写在一个.sh脚本中运行都可以。运行完后会在当前目录下生成一个目录"openaccess.thecvf.com",cd进去看会发现所有的论文都在“openaccess.thecvf.com/content_cvpr_2018/papers ”目录中了,相关的补充材料也会被一并爬下来,保存在“openaccess.thecvf.com/content_cvpr_2018/Supplemental ”目录下。执行ls命令会看到所有的论文都下载好了。
 

 但是有个问题很烦人,就是pdf文件的名字并不是我们想要的论文标题。难道我们每次想看论文时都得打开一个pdf来看这篇文章是干嘛的吗?更好的方式当然是直接从pdf文件名就能看出论文大概讲的是什么东西(比如做detection的文章大多题目都会有detection这个字眼),这样我们可以随心所欲地选择自己想看的主题相关的论文。
 

2. 提取论文标题,用它重命名pdf文件

    由于要获取pdf标题,这边需要先装一下叫PyPDF2的东西,安装方法很简单:

sudo pip install PyPDF2

 

安装完后,将下面的代码负责到rename_pdf_using_title.py文件中,运行即可: 

  import osfrom PyPDF2 import PdfFileWriter, PdfFileReaderfrom shutil import copy2src_dir = '/home/XXX/download/cvpr2018_papers/openaccess.thecvf.com/content_cvpr_2018/papers'des_dir = '/home/XXX/download/cvpr2018_papers/openaccess.thecvf.com/content_cvpr_2018/papers_new'if not os.path.exists(des_dir):os.makedirs(des_dir)if os.path.exists(src_dir):dirs = os.listdir(src_dir)for dirc in dirs:pdf_reader = PdfFileReader(open(os.path.join(src_dir, dirc), 'rb'))titlec = pdf_reader.getDocumentInfo().titleif titlec.find('/')!=-1: #文件名中的斜杠'/'会和目录标识符冲突,因此将其转为'-'print(titlec)titlec2 = titlec.replace('/','-')print(titlec2)titlec = titlec2copy2(os.path.join(src_dir, dirc), os.path.join(des_dir, titlec) + '.pdf')else:print("Dir does not exist!")

运行完后到des_dir下ls一下,可以看到所有的pdf文件都命名好了:

 

  希望对喜欢屯paper的同学有点帮助。 

 

这篇关于一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/634095

相关文章

Python下载Pandas包的步骤

《Python下载Pandas包的步骤》:本文主要介绍Python下载Pandas包的步骤,在python中安装pandas库,我采取的方法是用PIP的方法在Python目标位置进行安装,本文给大... 目录安装步骤1、首先找到我们安装python的目录2、使用命令行到Python安装目录下3、我们回到Py

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

Python实现合并与拆分多个PDF文档中的指定页

《Python实现合并与拆分多个PDF文档中的指定页》这篇文章主要为大家详细介绍了如何使用Python实现将多个PDF文档中的指定页合并生成新的PDF以及拆分PDF,感兴趣的小伙伴可以参考一下... 安装所需要的库pip install PyPDF2 -i https://pypi.tuna.tsingh

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并

Python实现PDF与多种图片格式之间互转(PNG, JPG, BMP, EMF, SVG)

《Python实现PDF与多种图片格式之间互转(PNG,JPG,BMP,EMF,SVG)》PDF和图片是我们日常生活和工作中常用的文件格式,有时候,我们可能需要将PDF和图片进行格式互转来满足... 目录一、介绍二、安装python库三、Python实现多种图片格式转PDF1、单张图片转换为PDF2、多张图

使用国内镜像源优化pip install下载的方法步骤

《使用国内镜像源优化pipinstall下载的方法步骤》在Python开发中,pip是一个不可或缺的工具,用于安装和管理Python包,然而,由于默认的PyPI服务器位于国外,国内用户在安装依赖时可... 目录引言1. 为什么需要国内镜像源?2. 常用的国内镜像源3. 临时使用国内镜像源4. 永久配置国内镜

详解如何使用Python提取视频文件中的音频

《详解如何使用Python提取视频文件中的音频》在多媒体处理中,有时我们需要从视频文件中提取音频,本文为大家整理了几种使用Python编程语言提取视频文件中的音频的方法,大家可以根据需要进行选择... 目录引言代码部分方法扩展引言在多媒体处理中,有时我们需要从视频文件中提取音频,以便进一步处理或分析。本文