PyPDF2的使用

2024-03-15 23:58
文章标签 使用 pypdf2

本文主要是介绍PyPDF2的使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑

在这篇文章中,我们将学习如何做一些pdf的操作:

从PDF中提取文字

旋转pdf页

合并pdf

分割pdf

向pdf页中添加水印

使用简单的python脚本

1、安装

我们将使用第三方的模块 PyPDF2


PyPDF2是作为PDF工具包构建的python库,它能够:
  • 提取文档信息(标题,作者,...)
  • 按页拆分文档
  • 逐页合并文档
  • 裁剪页面
  • 合并多个页面到一个页
  • 对pdf文档进行加密解密
  • 等等

安装PyPDF2,在命令行下执行命令:

pip install PyPDF2

注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的

2、使用模块

- 从pdf中提取文字

import PyPDF2pdfFile = open('example.pdf','rb')pdfReader = PyPDF2.PdfFileReader(pdfFile)print(pdfReader.numPages)page = pdfReader.getPage(0)print(page.extractText())pdfFile.close()

在我的机子上输出如下:

241Copyright © 201
7by OriginLab CorporationAll rights reserved. No part of the contents of this book may be reproduced or 
transmitted in any form or by any means without the written permission of OriginLab 
Corporation.OriginLab, Origin, 
and LabTalk are either registered trademarks or trademarks of 
OriginLab Corporation. Other product and company names mentioned herein may be 
the trademarks of their respective owners.

我们来逐步分析一下上面的代码

pdfFile = open('example.pdf','rb')

我们以二进制的方式打开example.pdf,并且保存为pdfFile

pdfReader = PyPDF2.PdfFileReader(pdfFile)

我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象

print(pdfReader.numPages)

numPages 属性保存了pdf的页数,在我的例子中,numPages = 241

page = pdfReader.getPage(0)

现在,我们创建了一个page对象。pdfReader的getPage方法可以接受页码参数,并返回页面对象。

print(page.extractText())

page的extractText()方法,可以提取出页面中的文字

pdfFile.close()

最后,关闭打开的example.pdf

注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸的是,你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。

- 旋转pdf页


import PyPDF2def PDFrotate(origFileName,newFileName,rotation):pdfFile = open(origFileName,'rb')pdfReader = PyPDF2.PdfFileReader(pdfFile)pdfWriter = PyPDF2.PdfFileWriter()for page in range(pdfReader.numPages):pageObj = pdfReader.getPage(page)pageObj.rotateClockwise(rotation)pdfWriter.addPage(pageObj)newFile = open(newFileName,'wb')pdfWrite.write(newFile)pdfFile.close()newFile.close()def main():origFileName = 'example.pdf'newFileName = 'rotated_example.pdf'rotation = 270PDFrotate(origFileName,newFileName,rotation)if __name__ == "__main__":main()

我们看一下关键的代码:

pdfWriter = PyPDF2.PdfFileWriter()

因为我们是将旋转后的页面写入新的pdf,所以首先创建一个PdfFileWriter对象:pdfWriter。

for page in range(pdfReader.numPages):pageObj = pdfReader.getPage(page)pageObj.rotateClockwise(rotation)pdfWriter.addPage(pageObj)

通过pdfReader.numPages,获取pdf的页数,然后进行循环。
循环体中,先创建每一页的对象,然后调用页面对象的rotateClockwise方法,传入的参数是顺时针旋转的度数。最后,旋转后的页面对象作为参数传给pdfWriter的addPage方法。

newFile = open(newFileName,'wb')pdfWrite.write(newFile)pdfFile.close()newFile.close()

打开新的文件,以写的方式,将我们新生成的pdf写入。然后关闭两个文件

- 合并pdf文件

import PyPDF2def PDFmerge(pdfs,output):#创建一个pdf文件合并对象pdfMerger = PyPDF2.PdfFileMerger()#逐个添加pdffor pdf in pdfs:with open(pdf,'rb') as f:pdfMerger.append(f)#将内存中合并的pdf文件写入with open(output,'wb') as f:pdfMerger.write(f)def main():#需要合并的pdf名称pdfs = ['example.pdf','testexample.pdf']#合并完成的pdf名称output = 'combined_example.pdf'#调用PDFmerge函数,进行合并PDFmerge(pdfs,output)
if __name__ == '__main__':main()

- 给pdf添加水印

import PyPDF2def add_watermark(wmFile,pageObj):#打开水印pdf文件wmFileObj = open(wmFile,'rb')#创建pdfReader对象,把打开的水印pdf传入pdfReader = PyPDF2.PdfFileRdader(wmFileObj)#将水印pdf的首页与传入的原始pdf的页进行合并pageObj.mergePage(pdfReader.getPage(0))wmFileObj.close()return pageObjdef main():#水印pdf的名称watermark = 'watermark.pdf'#原始pdf的名称origFileName = 'example.pdf'#合并后新的pdf名称newFileName = 'watermark_example.pdf'#打开原始的pdf文件,获取文件指针pdfFileObj = open(origFileName,'rb')#创建reader对象pdfReader = PyPDF2.PdfFileReader(pdfFileObj)#创建一个指向新的pdf文件的指针pdfWriter = PyPDF2.PdfFileWriter()#通过迭代将水印添加到原始pdf的每一页for page in range(pdfReader.numPages):wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))#将合并后的即添加了水印的page对象添加到pdfWriterpdfWriter.addpage(wPageObj)#打开新的pdf文件newFile = open(newFileName,'wb')#将已经添加完水印的pdfWriter对象写入文件pdfWriter.write(newFile)#关闭原始和新的pdfpdfFileObj.close()newFile.close()if __name__ == '__main__':main()

过程大致和旋转的例子一样

wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))

我们通过自定义的add_watermark函数将水印与原始pdf页进行合并。
让我们来观察一下add_watermark函数

wmFileObj = open(wmFile, 'rb')
pdfReader = PyPDF2.PdfFileReader(wmFileObj) 
pageObj.mergePage(pdfReader.getPage(0))
wmFileObj.close()
return pageObj

首先,我们创建了一个pdf reader对象。对于传递的页面对象,我们使用mergePage()函数传递水印,这将在传递的页面对象上覆盖水印。

这篇关于PyPDF2的使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/813687

相关文章

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

使用Python和Pyecharts创建交互式地图

《使用Python和Pyecharts创建交互式地图》在数据可视化领域,创建交互式地图是一种强大的方式,可以使受众能够以引人入胜且信息丰富的方式探索地理数据,下面我们看看如何使用Python和Pyec... 目录简介Pyecharts 简介创建上海地图代码说明运行结果总结简介在数据可视化领域,创建交互式地

Java Stream流使用案例深入详解

《JavaStream流使用案例深入详解》:本文主要介绍JavaStream流使用案例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录前言1. Lambda1.1 语法1.2 没参数只有一条语句或者多条语句1.3 一个参数只有一条语句或者多

Java Spring 中 @PostConstruct 注解使用原理及常见场景

《JavaSpring中@PostConstruct注解使用原理及常见场景》在JavaSpring中,@PostConstruct注解是一个非常实用的功能,它允许开发者在Spring容器完全初... 目录一、@PostConstruct 注解概述二、@PostConstruct 注解的基本使用2.1 基本代

C#使用StackExchange.Redis实现分布式锁的两种方式介绍

《C#使用StackExchange.Redis实现分布式锁的两种方式介绍》分布式锁在集群的架构中发挥着重要的作用,:本文主要介绍C#使用StackExchange.Redis实现分布式锁的... 目录自定义分布式锁获取锁释放锁自动续期StackExchange.Redis分布式锁获取锁释放锁自动续期分布式

springboot使用Scheduling实现动态增删启停定时任务教程

《springboot使用Scheduling实现动态增删启停定时任务教程》:本文主要介绍springboot使用Scheduling实现动态增删启停定时任务教程,具有很好的参考价值,希望对大家有... 目录1、配置定时任务需要的线程池2、创建ScheduledFuture的包装类3、注册定时任务,增加、删

使用Python实现矢量路径的压缩、解压与可视化

《使用Python实现矢量路径的压缩、解压与可视化》在图形设计和Web开发中,矢量路径数据的高效存储与传输至关重要,本文将通过一个Python示例,展示如何将复杂的矢量路径命令序列压缩为JSON格式,... 目录引言核心功能概述1. 路径命令解析2. 路径数据压缩3. 路径数据解压4. 可视化代码实现详解1

Pandas透视表(Pivot Table)的具体使用

《Pandas透视表(PivotTable)的具体使用》透视表用于在数据分析和处理过程中进行数据重塑和汇总,本文就来介绍一下Pandas透视表(PivotTable)的具体使用,感兴趣的可以了解一下... 目录前言什么是透视表?使用步骤1. 引入必要的库2. 读取数据3. 创建透视表4. 查看透视表总结前言

Python 交互式可视化的利器Bokeh的使用

《Python交互式可视化的利器Bokeh的使用》Bokeh是一个专注于Web端交互式数据可视化的Python库,本文主要介绍了Python交互式可视化的利器Bokeh的使用,具有一定的参考价值,感... 目录1. Bokeh 简介1.1 为什么选择 Bokeh1.2 安装与环境配置2. Bokeh 基础2

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType?FIT_XYFIT_STARTFIT_CENTE