Python 处理 PDF 文件(PyPDF2, ReportLab)

2024-08-29 11:04

本文主要是介绍Python 处理 PDF 文件(PyPDF2, ReportLab),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python 是一门强大的编程语言,在处理PDF文件方面有着丰富的库支持,其中最常用的两个库是 PyPDF2ReportLabPyPDF2 主要用于读取、拆分、合并和修改已有的PDF文件,而 ReportLab 则擅长生成新的PDF文件。

一、PyPDF2

1. PyPDF2 概述

PyPDF2 是一个纯 Python 库,主要用于操作已有的 PDF 文件。它的功能包括从 PDF 中提取文本、合并多个 PDF 文件、拆分 PDF 文件、旋转页面、添加书签和注释等。然而,由于 PDF 文件格式复杂,PyPDF2 在处理某些复杂或加密的 PDF 文件时可能会遇到限制。

2. 安装 PyPDF2

在使用 PyPDF2 之前,你需要确保已安装它。可以通过 pip 安装:

pip install PyPDF2

3. PyPDF2 的基本操作

3.1 读取 PDF 文件

PyPDF2 提供了 PdfReader 类来读取 PDF 文件。你可以通过以下代码读取一个 PDF 文件:

from PyPDF2 import PdfReader# 打开 PDF 文件
with open('example.pdf', 'rb') as file:reader = PdfReader(file)# 获取 PDF 文件的总页数num_pages = len(reader.pages)print(f"Total pages: {num_pages}")# 提取第1页的文本内容page = reader.pages[0]text = page.extract_text()print(text)
3.2 合并 PDF 文件

PyPDF2 可以将多个 PDF 文件合并为一个新文件。使用 PdfWriter 类来完成此操作:

from PyPDF2 import PdfReader, PdfWriter# 创建 PdfWriter 对象
writer = PdfWriter()# 读取并添加 PDF 文件
pdf_files = ['file1.pdf', 'file2.pdf']
for pdf_file in pdf_files:reader = PdfReader(pdf_file)for page in reader.pages:writer.add_page(page)# 输出合并后的文件
with open('merged.pdf', 'wb') as output_file:writer.write(output_file)
3.3 拆分 PDF 文件

拆分 PDF 文件意味着将一个 PDF 文件的每一页保存为单独的文件:

from PyPDF2 import PdfReader, PdfWriter# 读取 PDF 文件
with open('example.pdf', 'rb') as file:reader = PdfReader(file)# 循环遍历每一页并创建一个新的 PDF 文件for i, page in enumerate(reader.pages):writer = PdfWriter()writer.add_page(page)# 保存单独的页面为新 PDF 文件output_filename = f'page_{i + 1}.pdf'with open(output_filename, 'wb') as output_file:writer.write(output_file)
3.4 旋转 PDF 页面

有时你可能需要旋转 PDF 文件中的某一页或所有页面。以下是旋转 PDF 页面的方法:

from PyPDF2 import PdfReader, PdfWriter# 打开 PDF 文件
with open('example.pdf', 'rb') as file:reader = PdfReader(file)writer = PdfWriter()# 旋转第一页 90 度page = reader.pages[0]rotated_page = page.rotate_clockwise(90)# 添加旋转后的页面到 PdfWriterwriter.add_page(rotated_page)# 保存新的 PDF 文件with open('rotated.pdf', 'wb') as output_file:writer.write(output_file)
3.5 添加书签和注释

虽然 PyPDF2 支持添加书签和注释,但其功能较为有限,而且操作相对复杂。PyPDF2 能够处理简单的书签和注释添加,但对于更复杂的需求,可能需要结合其他库。

4. PyPDF2 的局限性

尽管 PyPDF2 提供了丰富的功能,但它在处理一些复杂的 PDF 文件时可能会遇到问题,例如无法正确提取嵌入图像或复杂布局中的文本。此外,PyPDF2 的文本提取功能也有其局限性,尤其是在处理非英文文本时,可能无法准确提取。

二、ReportLab

1. ReportLab 概述

ReportLab 是一个强大的 Python 库,用于生成 PDF 文档。与 PyPDF2 侧重于操作已有的 PDF 文件不同,ReportLab 主要用于创建新 PDF 文件。它可以生成高质量的文档,支持丰富的文本样式、图表、图像和其他元素的插入。

2. 安装 ReportLab

PyPDF2 类似,你可以使用 pip 来安装 ReportLab

pip install reportlab

3. ReportLab 的基本操作

3.1 创建一个简单的 PDF 文件

使用 ReportLab 创建 PDF 文件通常涉及到 canvas.Canvas 类。以下是一个简单的例子,创建一个包含文本和图像的 PDF 文件:

from reportlab.lib.pagesizes import A4
from reportlab.pdfgen import canvas# 创建一个 PDF 文件
pdf_file = "example.pdf"
c = canvas.Canvas(pdf_file, pagesize=A4)# 添加文本
c.drawString(100, 800, "Hello, World!")# 添加图像
c.drawImage("example.jpg", 100, 700, width=200, height=100)# 保存 PDF
c.save()
3.2 创建复杂的文档

除了基本的文本和图像,ReportLab 还支持创建复杂的文档,例如带有多种字体、表格、图形、分栏布局等的文档。以下是一个创建带表格的 PDF 的例子:

from reportlab.lib.pagesizes import A4
from reportlab.lib import colors
from reportlab.lib.units import inch
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle# 创建 PDF 文件
pdf_file = "table_example.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=A4)# 创建表格数据
data = [["Header 1", "Header 2", "Header 3"],["Row 1 Col 1", "Row 1 Col 2", "Row 1 Col 3"],["Row 2 Col 1", "Row 2 Col 2", "Row 2 Col 3"],
]# 创建表格对象
table = Table(data)# 添加样式
style = TableStyle([('BACKGROUND', (0, 0), (-1, 0), colors.grey),('TEXTCOLOR', (0, 0), (-1, 0), colors.whitesmoke),('ALIGN', (0, 0), (-1, -1), 'CENTER'),('FONTNAME', (0, 0), (-1, 0), 'Helvetica-Bold'),('BOTTOMPADDING', (0, 0), (-1, 0), 12),('BACKGROUND', (0, 1), (-1, -1), colors.beige),('GRID', (0, 0), (-1, -1), 1, colors.black),
])
table.setStyle(style)# 构建 PDF
doc.build([table])
3.3 添加不同的字体和样式

ReportLab 提供了丰富的字体和样式选择,使得你可以创建具有各种排版效果的 PDF 文件:

from reportlab.lib import colors
from reportlab.lib.pagesizes import letter
from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer# 创建 PDF 文件
pdf_file = "styled_text.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=letter)# 获取样式表
styles = getSampleStyleSheet()# 自定义样式
custom_style = ParagraphStyle(name="CustomStyle",fontName="Helvetica-Bold",fontSize=14,leading=16,textColor=colors.red,alignment=1,  # 中心对齐
)# 创建带样式的文本段落
story = []
text = "This is a styled paragraph."
story.append(Paragraph(text, custom_style))
story.append(Spacer(1, 12))  # 添加间隔# 构建 PDF
doc.build(story)
3.4 插入图表

ReportLab 还支持生成和插入各种类型的图表,例如柱状图、饼图等。这些图表可以与其他文档元素无缝集成在一起:

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate
from reportlab.graphics.shapes import Drawing
from reportlab.graphics.charts.barcharts import VerticalBarChart
from reportlab.graphics.charts.textlabels import Label# 创建 PDF 文件
pdf_file = "chart_example.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=letter)# 创建图表数据
data = [(13, 5, 20, 22, 37, 45, 19, 4),(14, 6, 21, 23, 38, 46, 20, 5),
]# 创建绘图对象
drawing = Drawing(400, 200)# 创建柱状图
chart = VerticalBarChart()
chart.x = 50
chart.y = 50
chart.height = 125
chart.width = 300
chart.data = data
chart.strokeColor = colors.black# 添加标签
chart.valueAxis.valueMin = 0
chart.valueAxis.valueMax = 50
chart.valueAxis.valueStep = 10
chart.categoryAxis.labels.boxAnchor = 'ne'
chart.categoryAxis.labels.dx = 8
chart.categoryAxis.labels.dy = -2
chart.categoryAxis.labels.angle = 30
chart.categoryAxis.categoryNames = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug']# 添加标题
title = Label()
title.setOrigin(200, 180)
title.setText("Monthly Data")
drawing.add(title)drawing.add(chart)# 构建 PDF
doc.build([drawing])

4. ReportLab 的扩展与高级功能

ReportLab 还提供了许多扩展功能和高级特性,使得它成为生成复杂 PDF 报告的强大工具。以下是一些 ReportLab 更高级的功能和技巧。

4.1 流式布局(Flowable)

ReportLab 中,流式布局(Flowable)是一种用于在 PDF 文档中插入内容的机制。流式布局元素可以包括段落、图片、表格、图表等。Platypus(Page Layout and Typography Using Scripts)是 ReportLab 提供的一个强大工具,用于将这些流式布局元素组合在一起,生成复杂的文档。

以下是一个包含多个流式布局元素的例子:

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image
from reportlab.lib.styles import getSampleStyleSheet# 创建 PDF 文件
pdf_file = "flowable_example.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=letter)# 获取样式表
styles = getSampleStyleSheet()# 创建文档元素
story = []# 添加段落
paragraph = Paragraph("This is a paragraph.", styles['Normal'])
story.append(paragraph)
story.append(Spacer(1, 12))# 添加图片
image = Image("example.jpg")
story.append(image)
story.append(Spacer(1, 12))# 添加另一段落
paragraph = Paragraph("This is another paragraph after the image.", styles['Normal'])
story.append(paragraph)# 构建 PDF
doc.build(story)
4.2 自定义报表生成

在企业环境中,经常需要生成包含公司标志、表格、图表等元素的定制报告。ReportLab 可以通过组合不同的流式布局元素、添加页眉页脚以及插入公司标志来生成此类报告。

以下是一个包含页眉和页脚的自定义报告例子:

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
from reportlab.platypus.frames import Frame
from reportlab.platypus.doctemplate import PageTemplate
from reportlab.lib.styles import getSampleStyleSheet# 页眉页脚的生成函数
def add_page_number(canvas, doc):page_number_text = f"Page {doc.page}"canvas.drawRightString(200 * mm, 10 * mm, page_number_text)# 自定义的页眉
def header_footer(canvas, doc):canvas.saveState()canvas.setFont('Helvetica', 10)canvas.drawString(inch, 11 * inch, "Company Header")canvas.line(inch, 10.75 * inch, 7.5 * inch, 10.75 * inch)add_page_number(canvas, doc)canvas.restoreState()# 创建 PDF 文件
pdf_file = "custom_report.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=letter)# 设置页眉页脚模板
frame = Frame(doc.leftMargin, doc.bottomMargin, doc.width, doc.height, id='normal')
template = PageTemplate(id='test', frames=frame, onPage=header_footer)
doc.addPageTemplates([template])# 获取样式表
styles = getSampleStyleSheet()# 创建内容
story = [Paragraph("This is the content of the report.", styles['Normal']),Spacer(1, 12),Paragraph("More content on the next line.", styles['Normal'])]# 构建 PDF
doc.build(story)

在这个例子中,我们使用 header_footer 函数为每一页添加页眉和页脚。这种方法非常灵活,可以根据具体需求定制不同的页面布局。

4.3 生成图表和插入动态数据

ReportLab 提供的 reportlab.graphics 模块可以生成各种图表,包括柱状图、饼图、折线图等。这些图表可以通过程序动态生成,并插入到 PDF 文档中。例如,你可以从数据库或 API 中获取数据,然后将数据以图表的形式展示在 PDF 中。

以下是生成折线图并插入到 PDF 的示例:

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate
from reportlab.graphics.shapes import Drawing
from reportlab.graphics.charts.linecharts import HorizontalLineChart
from reportlab.graphics.widgets.markers import makeMarker
from reportlab.lib import colors# 创建 PDF 文件
pdf_file = "line_chart.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=letter)# 创建图表数据
data = [(10, 20, 30, 40, 50),(15, 25, 35, 45, 55),
]# 创建绘图对象
drawing = Drawing(400, 200)# 创建折线图
chart = HorizontalLineChart()
chart.x = 50
chart.y = 50
chart.height = 125
chart.width = 300
chart.data = data# 配置折线图
chart.lines[0].strokeColor = colors.blue
chart.lines[1].strokeColor = colors.green
chart.lineLabelFormat = '%2.0f'# 添加数据点标记
chart.lines[0].symbol = makeMarker('Circle')
chart.lines[1].symbol = makeMarker('Square')# 设置轴和标签
chart.categoryAxis.categoryNames = ['Jan', 'Feb', 'Mar', 'Apr', 'May']
chart.categoryAxis.labels.boxAnchor = 'n'drawing.add(chart)# 构建 PDF
doc.build([drawing])

这个例子展示了如何生成一个简单的折线图。ReportLab 的图表模块非常灵活,可以满足各种定制需求。

4.4 使用 ReportLab 生成动态PDF表单

ReportLab 可以生成包含表单字段的 PDF 文件,例如文本框、复选框和下拉列表。这些表单字段可以在生成后由用户在 PDF 阅读器中填写。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas# 创建 PDF 文件
pdf_file = "form_example.pdf"
c = canvas.Canvas(pdf_file, pagesize=letter)# 创建文本框
c.drawString(100, 700, "Name:")
c.textfield(name='name_field', tooltip='Your Name', x=150, y=700, width=200)# 创建复选框
c.drawString(100, 650, "Subscribe:")
c.checkbox(name='subscribe', tooltip='Subscribe to Newsletter', x=150, y=650, buttonStyle='check')# 创建下拉列表
c.drawString(100, 600, "Gender:")
c.choice(name='gender', tooltip='Select Gender', x=150, y=600, width=100, options=['Male', 'Female'])# 保存 PDF
c.save()

生成的 PDF 文件可以通过 PDF 阅读器(如 Adobe Acrobat Reader)进行交互。这对于创建需要用户输入的文档或问卷非常有用。

4.5 使用模板生成 PDF

在某些情况下,你可能需要基于模板生成多个相似的 PDF 文件。ReportLab 支持通过预定义的模板来快速生成带有动态内容的 PDF。例如,使用 platypus 模块和自定义样式表生成包含多个动态内容的复杂报告。

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, PageBreak
from reportlab.lib.styles import getSampleStyleSheet# 创建 PDF 文件
pdf_file = "templated_report.pdf"
doc = SimpleDocTemplate(pdf_file, pagesize=letter)# 获取样式表
styles = getSampleStyleSheet()# 创建内容模板
story = []# 模板内容示例
for i in range(1, 11):story.append(Paragraph(f"Report Section {i}", styles['Heading1']))story.append(Paragraph(f"This is the content of section {i}.", styles['Normal']))story.append(PageBreak())  # 添加分页符# 构建 PDF
doc.build(story)

这个例子展示了如何使用循环生成多个具有相似结构的报告部分,并自动分页。这种方法特别适合批量生成相似结构的文档,如发票、成绩单或报告。

5. ReportLab 的高级功能总结

ReportLab 不仅仅是一个 PDF 生成工具,它更像是一个强大的排版引擎。它的高级功能使得开发者可以创建非常复杂且高度定制化的文档,包括企业报表、交互式表单、可视化数据报告等。通过 ReportLab,你几乎可以生成任何类型的 PDF 文档,并将它们与动态数据源无缝集成。

三、PyPDF2 与 ReportLab 的综合使用

在实际应用中,PyPDF2ReportLab 通常可以结合使用。你可以使用 ReportLab 生成 PDF 文件,然后使用 PyPDF2 对生成的 PDF 进行后续处理,如合并、拆分或添加水印。例如,使用 ReportLab 生成报告,然后使用 PyPDF2 合并多个报告或添加页码。

from PyPDF2 import PdfReader, PdfWriter
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from io import BytesIO# 使用 ReportLab 创建一个 PDF
packet = BytesIO()
c = canvas.Canvas(packet, pagesize=letter)
c.drawString(100, 100, "This is a dynamically generated PDF.")
c.save()# 读取生成的 PDF
packet.seek(0)
new_pdf = PdfReader(packet)# 读取现有的 PDF
existing_pdf = PdfReader(open("existing.pdf", "rb"))# 创建 PdfWriter 对象
output = PdfWriter()# 将现有的 PDF 页面与新生成的页面合并
for page_num in range(len(existing_pdf.pages)):page = existing_pdf.pages[page_num]if page_num == 0:  # 仅将新内容添加到第一页page.merge_page(new_pdf.pages[0])output.add_page(page)# 输出合并后的 PDF
with open("merged_output.pdf", "wb") as output_stream:output.write(output_stream)

这个例子展示了如何使用 ReportLab 生成动态内容,并将其合并到现有的 PDF 文档中。通过这种方式,你可以实现高度灵活的 PDF 生成与处理工作流。

在处理 PDF 文件时,PyPDF2ReportLab 是两种功能强大的工具。PyPDF2 侧重于对已有 PDF 文件的操作,如读取、拆分、合并和旋转页面等。而 ReportLab 则专注于创建新的 PDF 文件,提供了丰富的功能来生成复杂的报表、图表和交互式表单。

通过掌握这两个库的使用,可以在 Python 中处理几乎所有的 PDF 相关任务。无论是生成定制化的企业报告,还是自动化批量处理 PDF 文件,这两个库都能提供强有力的支持。结合这两者的功能,能够让 PDF 处理领域游刃有余,满足各种实际应用需求。

这篇关于Python 处理 PDF 文件(PyPDF2, ReportLab)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1117681

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小