PyPDF2的使用

2024-03-15 23:58
文章标签 使用 pypdf2

本文主要是介绍PyPDF2的使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑

在这篇文章中,我们将学习如何做一些pdf的操作:

从PDF中提取文字

旋转pdf页

合并pdf

分割pdf

向pdf页中添加水印

使用简单的python脚本

1、安装

我们将使用第三方的模块 PyPDF2


PyPDF2是作为PDF工具包构建的python库,它能够:
  • 提取文档信息(标题,作者,...)
  • 按页拆分文档
  • 逐页合并文档
  • 裁剪页面
  • 合并多个页面到一个页
  • 对pdf文档进行加密解密
  • 等等

安装PyPDF2,在命令行下执行命令:

pip install PyPDF2

注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的

2、使用模块

- 从pdf中提取文字

import PyPDF2pdfFile = open('example.pdf','rb')pdfReader = PyPDF2.PdfFileReader(pdfFile)print(pdfReader.numPages)page = pdfReader.getPage(0)print(page.extractText())pdfFile.close()

在我的机子上输出如下:

241Copyright © 201
7by OriginLab CorporationAll rights reserved. No part of the contents of this book may be reproduced or 
transmitted in any form or by any means without the written permission of OriginLab 
Corporation.OriginLab, Origin, 
and LabTalk are either registered trademarks or trademarks of 
OriginLab Corporation. Other product and company names mentioned herein may be 
the trademarks of their respective owners.

我们来逐步分析一下上面的代码

pdfFile = open('example.pdf','rb')

我们以二进制的方式打开example.pdf,并且保存为pdfFile

pdfReader = PyPDF2.PdfFileReader(pdfFile)

我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象

print(pdfReader.numPages)

numPages 属性保存了pdf的页数,在我的例子中,numPages = 241

page = pdfReader.getPage(0)

现在,我们创建了一个page对象。pdfReader的getPage方法可以接受页码参数,并返回页面对象。

print(page.extractText())

page的extractText()方法,可以提取出页面中的文字

pdfFile.close()

最后,关闭打开的example.pdf

注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸的是,你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。

- 旋转pdf页


import PyPDF2def PDFrotate(origFileName,newFileName,rotation):pdfFile = open(origFileName,'rb')pdfReader = PyPDF2.PdfFileReader(pdfFile)pdfWriter = PyPDF2.PdfFileWriter()for page in range(pdfReader.numPages):pageObj = pdfReader.getPage(page)pageObj.rotateClockwise(rotation)pdfWriter.addPage(pageObj)newFile = open(newFileName,'wb')pdfWrite.write(newFile)pdfFile.close()newFile.close()def main():origFileName = 'example.pdf'newFileName = 'rotated_example.pdf'rotation = 270PDFrotate(origFileName,newFileName,rotation)if __name__ == "__main__":main()

我们看一下关键的代码:

pdfWriter = PyPDF2.PdfFileWriter()

因为我们是将旋转后的页面写入新的pdf,所以首先创建一个PdfFileWriter对象:pdfWriter。

for page in range(pdfReader.numPages):pageObj = pdfReader.getPage(page)pageObj.rotateClockwise(rotation)pdfWriter.addPage(pageObj)

通过pdfReader.numPages,获取pdf的页数,然后进行循环。
循环体中,先创建每一页的对象,然后调用页面对象的rotateClockwise方法,传入的参数是顺时针旋转的度数。最后,旋转后的页面对象作为参数传给pdfWriter的addPage方法。

newFile = open(newFileName,'wb')pdfWrite.write(newFile)pdfFile.close()newFile.close()

打开新的文件,以写的方式,将我们新生成的pdf写入。然后关闭两个文件

- 合并pdf文件

import PyPDF2def PDFmerge(pdfs,output):#创建一个pdf文件合并对象pdfMerger = PyPDF2.PdfFileMerger()#逐个添加pdffor pdf in pdfs:with open(pdf,'rb') as f:pdfMerger.append(f)#将内存中合并的pdf文件写入with open(output,'wb') as f:pdfMerger.write(f)def main():#需要合并的pdf名称pdfs = ['example.pdf','testexample.pdf']#合并完成的pdf名称output = 'combined_example.pdf'#调用PDFmerge函数,进行合并PDFmerge(pdfs,output)
if __name__ == '__main__':main()

- 给pdf添加水印

import PyPDF2def add_watermark(wmFile,pageObj):#打开水印pdf文件wmFileObj = open(wmFile,'rb')#创建pdfReader对象,把打开的水印pdf传入pdfReader = PyPDF2.PdfFileRdader(wmFileObj)#将水印pdf的首页与传入的原始pdf的页进行合并pageObj.mergePage(pdfReader.getPage(0))wmFileObj.close()return pageObjdef main():#水印pdf的名称watermark = 'watermark.pdf'#原始pdf的名称origFileName = 'example.pdf'#合并后新的pdf名称newFileName = 'watermark_example.pdf'#打开原始的pdf文件,获取文件指针pdfFileObj = open(origFileName,'rb')#创建reader对象pdfReader = PyPDF2.PdfFileReader(pdfFileObj)#创建一个指向新的pdf文件的指针pdfWriter = PyPDF2.PdfFileWriter()#通过迭代将水印添加到原始pdf的每一页for page in range(pdfReader.numPages):wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))#将合并后的即添加了水印的page对象添加到pdfWriterpdfWriter.addpage(wPageObj)#打开新的pdf文件newFile = open(newFileName,'wb')#将已经添加完水印的pdfWriter对象写入文件pdfWriter.write(newFile)#关闭原始和新的pdfpdfFileObj.close()newFile.close()if __name__ == '__main__':main()

过程大致和旋转的例子一样

wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))

我们通过自定义的add_watermark函数将水印与原始pdf页进行合并。
让我们来观察一下add_watermark函数

wmFileObj = open(wmFile, 'rb')
pdfReader = PyPDF2.PdfFileReader(wmFileObj) 
pageObj.mergePage(pdfReader.getPage(0))
wmFileObj.close()
return pageObj

首先,我们创建了一个pdf reader对象。对于传递的页面对象,我们使用mergePage()函数传递水印,这将在传递的页面对象上覆盖水印。

这篇关于PyPDF2的使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/813687

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud