Python实现word或pdf文件转png长图

2023-10-19 01:50
文章标签 python 实现 pdf png word 长图

本文主要是介绍Python实现word或pdf文件转png长图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python实现word/pdf文件转png长图

  • 背景
  • 思路
  • 不足
  • 实现
    • 1. word转pdf
    • 2. pdf转图片
    • 3. 图片空白行删除
  • 效果

背景

最近写项目周报要求转为长图片输出,本着“自己动手,丰衣足食”(抠门)的原则,就不购买xx会员了,自己动手做一个word转换图片的小工具~~

思路

  1. 先将Word文档转为pdf文件。
  2. 读取pdf文件,逐页转为图片,保存为多个临时文件。
  3. 读取临时图片文件,拼接输出一张图片文件。
  4. 对长图中过多的空白行进行删除。

不足

  1. word文件转pdf目前用的是win32com库,只能在windows系统使用。
  2. 空白行的判断效率较低。

实现

1. word转pdf

# -*- coding:utf-8 -*-
"""
将word文档转换为pdf文件
"""
from datetime import datetime
from pathlib import Path
import win32com.client# 将Word文档转换为PDF文件
def convert_to_pdf(input_file_path, output_file_path):# 目标文件若已存在,则先删除Path(output_file_path).unlink(True)word = client.DispatchEx('Word.Application')try:doc = word.Documents.Open(input_file_path)doc.SaveAs2(output_file_path, FileFormat=17)doc.Close()except Exception as e:print("转pdf失败:%s" % e)finally:word.Quit()def word_2_pdf(word_name, new_pdf_name):word_path = Path(word_name).parentconvert_to_pdf(word_name, new_pdf_name)return new_pdf_nameif __name__ == "__main__":word_name = "d:/test_word.docx"word_2_pdf(word_name)

2. pdf转图片

# -*- coding:utf-8 -*-from datetime import datetime
from pathlib import Path
# 安装fitz 就是安装 PyMuPDF 才能使用
import fitz
# import os
# 安装 opencv, opencv的像素含义顺序是 BGR (不是常用的RGB)
# pip3 install opencv-python -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
import cv2
import numpy as np
from shutil import copyfiledef pdf_2_png(pdf_name,png_name=None):print(pdf_name)pdf_path = Path(pdf_name).parentdoc = fitz.open(pdf_name)img_stack = Nonetemp = 0# 每页pdf生产一个临时图片for pg in range(doc.page_count):page = doc[pg]temp += 1rotate = int(0)# 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。zoom_x = 2.0zoom_y = 2.0trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pixmap = page.get_pixmap(matrix=trans, alpha=False)# 生成临时png文件路径pic_name = str(pdf_path.joinpath('_temp_{}.png'.format(temp)).absolute())pixmap.save(pic_name)# pm_img = cv2.imread(pic_name) # 此方式不支持中文目录,改用下方方法pm_img = cv2.imdecode(np.fromfile(pic_name, dtype=np.uint8), cv2.IMREAD_COLOR + cv2.IMREAD_IGNORE_ORIENTATION)pm_img = cv2.resize(pm_img, (1191, 1684))# 删除临时图片文件Path(pic_name).unlink(True)# 拼长图if img_stack is None:img_stack = np.vstack((pm_img,))else:img_stack = np.vstack((img_stack, pm_img))# 删除长图中的空白区域thin_img = shrink_img(img_stack, 100, 20)output_file = png_name if png_name is not None else str(pdf_path.joinpath(Path(pdf_name).stem + ".png").absolute())# cv2.imwrite(str(tmp_img_name.absolute()), thin_img) # 不支持中文目录# 采用下述方法保存到带中文的目录cv2.imencode('.png', thin_img)[1].tofile(output_file)def shrink_file(img_file,target_file):pm_img = cv2.imread(img_file)im = shrink_img(pm_img, 120, 20)cv2.imwrite(target_file, im)if __name__ == "__main__":pf = "d:/test_word.pdf"pdf_2_png(pf)

3. 图片空白行删除

def is_blank(line):"""判断本行是否空白行"""for pixel in line:if not all(n == 255 for n in pixel):return Falsereturn Truedef get_blank_block(img, begin_row, end_row, need_height):"""获取高度大于等于输入值的整块空白区域"""if (img is None) or (begin_row < 0) or (end_row < begin_row) or (need_height <= 0):return False, 0, 0if (end_row - begin_row) < need_height:return False, 0, 0start_row = -1found = Falsefound_height = 0for row in range(begin_row, end_row):line = img[row, :]if not is_blank(line):# 非空白,则判断高度是否符合if found_height >= need_height:breakstart_row = -1found_height = 0continue# 是空白行if start_row < 0:start_row = rowfound_height += 1if found_height >= need_height:found = Truereturn found, start_row, found_heightdef shrink_img(img, blank_height=50, reserve_height=20):"""将图片中过长的空白背景截取删除:对于图片中整行都是白色,且超过一定高度的,仅保留指定高度区域,其余删除。"""# 读取原始图片宽高height, width = img.shape[:2]found = Trueimg_stack = Nonebegin_row = 0while found:found, begin_blank_row, found_height = get_blank_block(img, begin_row, height, blank_height)if found:# 找到空白区域,将搜索起始行到空白起始行之间的图像加入stack,跳过空白区域,继续搜索img2 = img[begin_row: begin_blank_row + reserve_height, :]begin_row = begin_blank_row + found_heightelse:# 没找到空白区域,将搜索起始行到结束行的图像加入stackimg2 = img[begin_row:height, :]if img_stack is None:img_stack = np.vstack((img2,))else:img_stack = np.vstack((img_stack, img2))if img_stack is None:img_stack = imgreturn img_stackif __name__ == "__main__":img_info = cv2.imread("d:/test.png")thin_img = shrink_img(img_info, 60, 20)cv2.imshow('result', thin_img)cv2.waitKey(0)cv2.destroyAllWindows()

效果

  1. word原始文件,多页。
    在这里插入图片描述

  2. 拼接后的长图(分页之间存在空白)
    在这里插入图片描述

这篇关于Python实现word或pdf文件转png长图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/236510

相关文章

基于Python编写一个git自动上传的脚本(打包成exe)

《基于Python编写一个git自动上传的脚本(打包成exe)》这篇文章主要为大家详细介绍了如何基于Python编写一个git自动上传的脚本并打包成exe,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录前言效果如下源码实现利用pyinstaller打包成exe利用ResourceHacker修改e

Python在二进制文件中进行数据搜索的实战指南

《Python在二进制文件中进行数据搜索的实战指南》在二进制文件中搜索特定数据是编程中常见的任务,尤其在日志分析、程序调试和二进制数据处理中尤为重要,下面我们就来看看如何使用Python实现这一功能吧... 目录简介1. 二进制文件搜索概述2. python二进制模式文件读取(rb)2.1 二进制模式与文本

Python中Tkinter GUI编程详细教程

《Python中TkinterGUI编程详细教程》Tkinter作为Python编程语言中构建GUI的一个重要组件,其教程对于任何希望将Python应用到实际编程中的开发者来说都是宝贵的资源,这篇文... 目录前言1. Tkinter 简介2. 第一个 Tkinter 程序3. 窗口和基础组件3.1 创建窗

基于C++的UDP网络通信系统设计与实现详解

《基于C++的UDP网络通信系统设计与实现详解》在网络编程领域,UDP作为一种无连接的传输层协议,以其高效、低延迟的特性在实时性要求高的应用场景中占据重要地位,下面我们就来看看如何从零开始构建一个完整... 目录前言一、UDP服务器UdpServer.hpp1.1 基本框架设计1.2 初始化函数Init详解

Java中Map的五种遍历方式实现与对比

《Java中Map的五种遍历方式实现与对比》其实Map遍历藏着多种玩法,有的优雅简洁,有的性能拉满,今天咱们盘一盘这些进阶偏基础的遍历方式,告别重复又臃肿的代码,感兴趣的小伙伴可以了解下... 目录一、先搞懂:Map遍历的核心目标二、几种遍历方式的对比1. 传统EntrySet遍历(最通用)2. Lambd

Django调用外部Python程序的完整项目实战

《Django调用外部Python程序的完整项目实战》Django是一个强大的PythonWeb框架,它的设计理念简洁优雅,:本文主要介绍Django调用外部Python程序的完整项目实战,文中通... 目录一、为什么 Django 需要调用外部 python 程序二、三种常见的调用方式方式 1:直接 im

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

SpringBoot全局异常拦截与自定义错误页面实现过程解读

《SpringBoot全局异常拦截与自定义错误页面实现过程解读》本文介绍了SpringBoot中全局异常拦截与自定义错误页面的实现方法,包括异常的分类、SpringBoot默认异常处理机制、全局异常拦... 目录一、引言二、Spring Boot异常处理基础2.1 异常的分类2.2 Spring Boot默

基于SpringBoot实现分布式锁的三种方法

《基于SpringBoot实现分布式锁的三种方法》这篇文章主要为大家详细介绍了基于SpringBoot实现分布式锁的三种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、基于Redis原生命令实现分布式锁1. 基础版Redis分布式锁2. 可重入锁实现二、使用Redisso