python自动化操作PDF,拆分pdf合并pdf,提取pdf内容

2024-09-02 00:12

本文主要是介绍python自动化操作PDF,拆分pdf合并pdf,提取pdf内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第三方库介绍

Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber。
        PyPDF2 可以更好的读取、写入、分割、合并PDF文件;
        pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格,主要应用于机器生成的 PDF,而非扫描的PDF文档。

        由于这两个库都不是 Python 的标准库,所以在使用之前都需要单独安装,在终端中依次输入如下命令进行安装:
        pip install PyPDF2
        pip install pdfplumber
安装完成后显示 success 则表示安装成功。 

课程准备

资源文件解压后放置D:\自动化 文件夹下,最终资源路径为 D:\自动化\pdf ,内容分布如下图:

 

 为了保证学习的流畅性,请提前创建好相应的文件夹,将资源放置在相应位置。

 拆分PDF

        将一个完整的 PDF 拆分成几个小的 PDF,因为主要涉及到 PDF 整体的操作,需要用到 PyPDF2 这个库
拆分的大概思路如下:
          读取 PDF 的整体信息、总页数等
          按照页数每页拆分为一个PDF
          将小的文件块重新保存为新的 PDF 文件

代码如下:

'''拆分思路
读取pdf的整体信息,总页数等
按照页数每页拆分为一个pdf
将小的文件快重新保存为新的pdf文件'''
import os.path
from PyPDF2 import PdfReader,PdfWriterpdf_path = r"D:\自动化\第12讲.pdf"
out_dir = r"D:\自动化\拆分"if not os.path.exists(out_dir):os.makedirs(out_dir)# 获取 PdfFileReader 对象
pdf_reader = PdfReader(pdf_path)# 获取页面数量
page_count = len(pdf_reader.pages)for i in range(page_count):pdf_writer = PdfWriter()page = pdf_reader.pages[i]pdf_writer.add_page(page)out_path = os.path.join(out_dir, f"{i + 1}.pdf")#将页码从 0 开始改为从 1 开始(即 i + 1),以便文件名从 1.pdf 开始更符合常规。with open(out_path, "wb") as out:pdf_writer.write(out)

合并PDF 

比起拆分来,合并的思路更加简单:
                确定要合并的 文件顺序
                循环追加到一个文件块中
                保存成一个新的文件

代码如下: 

from PyPDF2 import PdfReader, PdfWriter
import ospdf_dir = r"D:\自动化\拆分"
out_path = r"D:\自动化\merge.pdf"# 列出所有的 PDF 文件
pdf_list = [f for f in os.listdir(pdf_dir) if f.endswith('.pdf')]print(pdf_list )
pdf_writer = PdfWriter()# 遍历所有 PDF 文件
for pdf_file in pdf_list:path = os.path.join(pdf_dir, pdf_file)pdf_reader = PdfReader(path)# 遍历 PDF 文件的每一页for page in pdf_reader.pages:pdf_writer.add_page(page)# 将合并后的 PDF 写入到输出文件
with open(out_path, "wb") as out:pdf_writer.write(out)

代码介绍:

 提取文字内容

涉及到具体的 PDF 内容操作需要用到 pdfplumber 这个库
在进行文字提取的时候,主要用到 extract_text() 这个函数

import pdfplumber
pdf_path = r"D:\自动化\道德经.pdf"
with pdfplumber.open(pdf_path) as pdf:#使用 pdfplumber.open 方法打开指定路径的 PDF 文件,并将其赋值给 pdf 变量。with 语句确保文件在操作完成后正确关闭。
# 读取所有内容for page in pdf.pages:print(page.extract_text())# 读取第一页的文字内容# page = pdf.pages[0]# print(page.extract_text())

这篇关于python自动化操作PDF,拆分pdf合并pdf,提取pdf内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128445

相关文章

python logging模块详解及其日志定时清理方式

《pythonlogging模块详解及其日志定时清理方式》:本文主要介绍pythonlogging模块详解及其日志定时清理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录python logging模块及日志定时清理1.创建logger对象2.logging.basicCo

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

Python中局部变量和全局变量举例详解

《Python中局部变量和全局变量举例详解》:本文主要介绍如何通过一个简单的Python代码示例来解释命名空间和作用域的概念,它详细说明了内置名称、全局名称、局部名称以及它们之间的查找顺序,文中通... 目录引入例子拆解源码运行结果如下图代码解析 python3命名空间和作用域命名空间命名空间查找顺序命名空

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

Python中的魔术方法__new__详解

《Python中的魔术方法__new__详解》:本文主要介绍Python中的魔术方法__new__的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、核心意义与机制1.1 构造过程原理1.2 与 __init__ 对比二、核心功能解析2.1 核心能力2.2

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3