Python知识点:使用Python进行PDF文档处理

2024-09-08 09:36

本文主要是介绍Python知识点:使用Python进行PDF文档处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用 Python 进行 PDF 文档处理可以通过多种库来实现,包括 PyPDF2pdfplumberreportlabpdfminer 等。这些库可以处理不同的 PDF 任务,例如 提取文本拆分合并 PDF修改 PDF生成 PDF 等。以下是几种常见操作及对应的库和代码示例。

1. 安装常用库

首先,安装常用的 PDF 处理库:

pip install PyPDF2 pdfplumber reportlab

2. 提取 PDF 文本

PyPDF2pdfplumber 都可以用于提取 PDF 文本。PyPDF2 更轻量,但有时处理复杂的 PDF 格式效果较差,而 pdfplumber 更加适合处理表格等复杂结构的 PDF。

使用 PyPDF2 提取文本
import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)# 提取每一页的文本for page_num in range(len(reader.pages)):page = reader.pages[page_num]text = page.extract_text()print(f"第 {page_num + 1} 页的文本:\n{text}")
使用 pdfplumber 提取文本

pdfplumber 更适合处理结构化数据,尤其是表格。

import pdfplumber# 打开 PDF 文件
with pdfplumber.open('sample.pdf') as pdf:for page_num in range(len(pdf.pages)):page = pdf.pages[page_num]text = page.extract_text()print(f"第 {page_num + 1} 页的文本:\n{text}")

3. 合并与拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

可以将多个 PDF 文件合并为一个文件。

import PyPDF2pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merger = PyPDF2.PdfMerger()for pdf in pdf_files:merger.append(pdf)# 保存合并后的 PDF 文件
with open('merged_output.pdf', 'wb') as output_file:merger.write(output_file)
使用 PyPDF2 拆分 PDF 文件

将 PDF 文件拆分为单独的页面。

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)# 按页拆分并保存for page_num in range(len(reader.pages)):writer = PyPDF2.PdfWriter()writer.add_page(reader.pages[page_num])with open(f'split_page_{page_num + 1}.pdf', 'wb') as output_file:writer.write(output_file)

4. 创建和修改 PDF

使用 ReportLab 创建 PDF 文件

reportlab 是一个功能强大的库,可以用来生成新的 PDF 文件,支持插入文本、图片、图形等。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas# 创建 PDF 文件
c = canvas.Canvas("output.pdf", pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF created with ReportLab!")# 创建矩形
c.rect(100, 700, 400, 100)# 保存 PDF
c.showPage()
c.save()
使用 ReportLab 插入图片

你可以使用 reportlab 插入图片到 PDF 中。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvasc = canvas.Canvas("output_with_image.pdf", pagesize=letter)
c.drawString(100, 750, "This is a PDF with an image:")# 插入图片
c.drawImage("image.png", 100, 600, width=200, height=150)c.showPage()
c.save()

5. 提取 PDF 表格

pdfplumber 提供了提取 PDF 中表格的功能,非常适合处理含有表格的文档。

import pdfplumber# 打开 PDF 文件
with pdfplumber.open('table_sample.pdf') as pdf:first_page = pdf.pages[0]# 提取表格数据tables = first_page.extract_table()# 打印提取到的表格数据for row in tables:print(row)

6. PDF 文档加密与解密

使用 PyPDF2 加密 PDF 文件

你可以加密 PDF 文件,防止未经授权的访问。

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)writer = PyPDF2.PdfWriter()for page_num in range(len(reader.pages)):writer.add_page(reader.pages[page_num])# 设置密码writer.encrypt(user_password='user123', owner_password='owner123')with open('encrypted_output.pdf', 'wb') as output_file:writer.write(output_file)
使用 PyPDF2 解密 PDF 文件

如果 PDF 文件已加密,解密并提取文本的方法如下:

import PyPDF2# 打开加密的 PDF 文件
with open('encrypted_output.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)# 提供密码reader.decrypt('user123')# 提取文本for page_num in range(len(reader.pages)):page = reader.pages[page_num]print(page.extract_text())

7. PDF 页面旋转

你可以旋转 PDF 的某些页面,以下是旋转页面的示例:

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)writer = PyPDF2.PdfWriter()# 旋转每页 90 度for page in reader.pages:page.rotate_clockwise(90)writer.add_page(page)# 保存旋转后的 PDF 文件with open('rotated_output.pdf', 'wb') as output_file:writer.write(output_file)

总结

Python 提供了多个强大的库来处理 PDF 文档。根据具体需求,选择适合的库来完成任务:

  • PyPDF2:适合基本的 PDF 操作,如合并、拆分、加密、旋转等。
  • pdfplumber:适合复杂的文本和表格提取。
  • reportlab:用于生成和修改 PDF 文件,支持文本、图像和图形的绘制。

通过这些工具,你可以轻松地处理 PDF 文档的各种操作,从文本提取到生成和修改文档。

这篇关于Python知识点:使用Python进行PDF文档处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147749

相关文章

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行