使用Python合并PDF文件并添加自定义目录及页脚

2024-03-10 05:36

本文主要是介绍使用Python合并PDF文件并添加自定义目录及页脚,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如何用Python合并PDF文件并添加自定义目录及页脚

    • 步骤一:准备环境
    • 步骤二:合并PDF文件
    • 步骤三:处理特定文件
    • 步骤四:合并并添加目录与页脚
    • 步骤五:保存最终文档
    • 结语
    • 完整代码

在处理文档时,我们经常遇到需要合并多个PDF文件并添加目录及页脚的情况。本文将介绍如何使用Python,特别是PyPDF2reportlab库来实现这一功能。我们将通过一个实用的示例来演示整个过程,包括如何动态创建目录页和在每页底部添加页码。

步骤一:准备环境

首先,确保你的环境中安装了PyPDF2reportlab库。如果还没有安装,可以通过以下命令进行安装:

pip install PyPDF2 reportlab

步骤二:合并PDF文件

我们首先定义一个函数add_catalog_page(bookmarks)来创建一个包含目录的PDF页面。这个目录基于传入的书签列表动态生成,每个书签对应一个文档标题和其开始的页码。

接下来,使用create_footer_page(footer_text)函数为每个PDF页面添加自定义页脚。这个函数通过绘制一个足够大的白色矩形来覆盖原有的页码,然后在指定位置添加新的页码文本。

步骤三:处理特定文件

在合并多个PDF文件之前,我们可能需要调整它们的顺序。在本例中,我们将特定的文件(如"第一篇.pdf")移动到文件列表的开头,以确保它作为合并后PDF文档的第一个文件出现。

步骤四:合并并添加目录与页脚

遍历每个PDF文件,读取其页面,并将它们添加到一个列表中。同时,我们记录每个文件的标题和起始页码,用于生成目录页。

在所有页面都处理完毕后,我们首先将目录页添加到最终的PDF文档中,然后为每个页面添加页脚,并将它们一一加入到文档中。

步骤五:保存最终文档

完成所有页面的处理和添加后,我们将这些页面写入到一个新的PDF文件中,完成了合并、添加目录和页脚的整个过程。

结语

通过上述步骤,我们展示了如何使用Python处理PDF文件,包括合并多个PDF文件、动态创建目录页和在每页底部添加自定义页脚。这种方法不仅提高了文档处理的自动化程度,也为管理和阅读PDF文档提供了便利。希望这篇文章能帮助到需要进行PDF文档处理的读者。

完整代码


import io
import osfrom PyPDF2 import PdfReader
from PyPDF2 import PdfWriter
from reportlab.lib.pagesizes import letter
from reportlab.pdfbase.pdfmetrics import stringWidth
from reportlab.pdfgen import canvasdef create_footer_page(footer_text):packet = io.BytesIO()c = canvas.Canvas(packet, pagesize=letter)width, height = letter  # letter页面的宽度和高度font_name = "Helvetica"  # 使用的字体font_size = 12  # 字体大小cover_height = font_size + 4  # 覆盖区域的高度稍大于字体大小,以确保完全覆盖原有页码cover_y_position = 28  # 覆盖区域的Y位置,根据需要进行调整以确保覆盖原有页码# 计算文本宽度和起始X位置以居中文本text_width = c.stringWidth(footer_text, font_name, font_size)text_start_position = (width - text_width) / 2# 绘制一个足够大的白色矩形以覆盖原有页码c.setFillColorRGB(1, 1, 1)  # 设置填充颜色为白色c.rect(0, cover_y_position, width, cover_height, stroke=False, fill=True)# 在页脚区域居中添加文本,高度可以根据需要调整c.setFont(font_name, font_size)  # 设置字体和大小c.setFillColorRGB(0, 0, 0)  # 设置文本颜色为黑色c.drawString(text_start_position, 32, footer_text)  # 绘制居中的页脚文本c.save()packet.seek(0)return PdfReader(packet)def add_catalog_page(bookmarks):packet = io.BytesIO()c = canvas.Canvas(packet, pagesize=letter)width, height = lettertop_margin = 60  # 顶部留白增加bottom_margin = 60  # 底部留白增加y_position = height - top_margin  # 根据顶部留白调整初始y_positionc.setFont("Helvetica-Bold", 16)  # 设置标题的字体和大小c.drawString(280, y_position, "Directory")  # 在顶部绘制标题“目录”y_position -= 30  # 更新y_position以为目录项留出空间c.setFont("Helvetica", 12)  # 设置目录项的字体和大小left_margin = 72right_margin = width - 72dot_space = 5  # 点间隔可调整different_title_spacing = 25  # 不同标题之间的间隔same_title_line_spacing = 15  # 同一个标题换行的间隔split_ratio = 0.9  # 定义分割点的位置比例for title, page_number in bookmarks:available_width = right_margin - left_margin - dot_space * 2  # 计算可用宽度title_width = stringWidth(title, "Helvetica", 12)page_number_str = str(page_number)page_number_width = stringWidth(page_number_str, "Helvetica", 12)# 判断标题是否需要分割if title_width > available_width * split_ratio:# 寻找分割点split_title = titlewhile stringWidth(split_title + "-", "Helvetica", 12) > available_width * split_ratio:split_title = split_title[:-1]split_title += "-"c.drawString(left_margin, y_position, split_title)y_position -= same_title_line_spacing  # 分割后的第二行位置向下调整,间隔小一点title = title[len(split_title) - 1:]# 绘制标题c.drawString(left_margin, y_position, title)# 绘制页码c.drawRightString(right_margin, y_position, page_number_str)# 绘制点线dot_line_start = left_margin + stringWidth(title, "Helvetica", 12) + 10dot_line_end = right_margin - page_number_width - 10current_position = dot_line_startwhile current_position < dot_line_end:c.drawString(current_position, y_position, ".")current_position += dot_spacey_position -= different_title_spacing  # 移到下一个标题,间隔大一点if y_position < bottom_margin:  # 根据底部留白调整翻页判断c.showPage()y_position = height - top_margin  # 重置y_position时也考虑顶部留白c.setFont("Helvetica", 12)  # 确保新页面开始时使用正确的字体和大小c.save()packet.seek(0)return PdfReader(packet)# 读取PDF/路径下所有.pdf为后缀的文件
pdf_dir = '我的论文集/'
pdf_files = sorted([f for f in os.listdir(pdf_dir) if f.endswith('.pdf')])# 找到特定文件并将其移动到列表的开头
specific_file = "第一篇.pdf"
if specific_file in pdf_files:pdf_files.insert(0, pdf_files.pop(pdf_files.index(specific_file)))#print(pdf_files)# 存储所有处理后的页面,以便后续添加页脚
all_pages = []
bookmarks = []
total_pages = 0# 首先处理每个PDF文件,但不立即添加页脚
for filename in pdf_files:reader = PdfReader(os.path.join(pdf_dir, filename))bookmarks.append((filename.replace('.pdf', ''), total_pages + 1))for page in reader.pages:all_pages.append(page)total_pages += 1# 创建目录页并添加到最终PDF
writer = PdfWriter()
catalog_pdf = add_catalog_page(bookmarks)
for page in catalog_pdf.pages:writer.add_page(page)# 为每页添加页脚,并将页面添加到最终的PDF中
current_page_number = 1  # 从目录页之后的第一页开始计数页码
catalog_pages_count = len(catalog_pdf.pages)  # 计算目录页数量for page in all_pages:# 不再需要在页码中加上目录页的数量footer_pdf = create_footer_page(f"Page number: {current_page_number}")page.merge_page(footer_pdf.pages[0])writer.add_page(page)current_page_number += 1# 保存最终的PDF
output_pdf_path = "MergePapers.pdf"
with open(output_pdf_path, "wb") as f_out:writer.write(f_out)

这篇关于使用Python合并PDF文件并添加自定义目录及页脚的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/793218

相关文章

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

prometheus如何使用pushgateway监控网路丢包

《prometheus如何使用pushgateway监控网路丢包》:本文主要介绍prometheus如何使用pushgateway监控网路丢包问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录监控网路丢包脚本数据图表总结监控网路丢包脚本[root@gtcq-gt-monitor-prome

SpringBoot+EasyExcel实现自定义复杂样式导入导出

《SpringBoot+EasyExcel实现自定义复杂样式导入导出》这篇文章主要为大家详细介绍了SpringBoot如何结果EasyExcel实现自定义复杂样式导入导出功能,文中的示例代码讲解详细,... 目录安装处理自定义导出复杂场景1、列不固定,动态列2、动态下拉3、自定义锁定行/列,添加密码4、合并

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、