Python实现word或pdf文件转png长图

2023-10-19 01:50
文章标签 python 实现 pdf png word 长图

本文主要是介绍Python实现word或pdf文件转png长图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python实现word/pdf文件转png长图

  • 背景
  • 思路
  • 不足
  • 实现
    • 1. word转pdf
    • 2. pdf转图片
    • 3. 图片空白行删除
  • 效果

背景

最近写项目周报要求转为长图片输出,本着“自己动手,丰衣足食”(抠门)的原则,就不购买xx会员了,自己动手做一个word转换图片的小工具~~

思路

  1. 先将Word文档转为pdf文件。
  2. 读取pdf文件,逐页转为图片,保存为多个临时文件。
  3. 读取临时图片文件,拼接输出一张图片文件。
  4. 对长图中过多的空白行进行删除。

不足

  1. word文件转pdf目前用的是win32com库,只能在windows系统使用。
  2. 空白行的判断效率较低。

实现

1. word转pdf

# -*- coding:utf-8 -*-
"""
将word文档转换为pdf文件
"""
from datetime import datetime
from pathlib import Path
import win32com.client# 将Word文档转换为PDF文件
def convert_to_pdf(input_file_path, output_file_path):# 目标文件若已存在,则先删除Path(output_file_path).unlink(True)word = client.DispatchEx('Word.Application')try:doc = word.Documents.Open(input_file_path)doc.SaveAs2(output_file_path, FileFormat=17)doc.Close()except Exception as e:print("转pdf失败:%s" % e)finally:word.Quit()def word_2_pdf(word_name, new_pdf_name):word_path = Path(word_name).parentconvert_to_pdf(word_name, new_pdf_name)return new_pdf_nameif __name__ == "__main__":word_name = "d:/test_word.docx"word_2_pdf(word_name)

2. pdf转图片

# -*- coding:utf-8 -*-from datetime import datetime
from pathlib import Path
# 安装fitz 就是安装 PyMuPDF 才能使用
import fitz
# import os
# 安装 opencv, opencv的像素含义顺序是 BGR (不是常用的RGB)
# pip3 install opencv-python -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
import cv2
import numpy as np
from shutil import copyfiledef pdf_2_png(pdf_name,png_name=None):print(pdf_name)pdf_path = Path(pdf_name).parentdoc = fitz.open(pdf_name)img_stack = Nonetemp = 0# 每页pdf生产一个临时图片for pg in range(doc.page_count):page = doc[pg]temp += 1rotate = int(0)# 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。zoom_x = 2.0zoom_y = 2.0trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pixmap = page.get_pixmap(matrix=trans, alpha=False)# 生成临时png文件路径pic_name = str(pdf_path.joinpath('_temp_{}.png'.format(temp)).absolute())pixmap.save(pic_name)# pm_img = cv2.imread(pic_name) # 此方式不支持中文目录,改用下方方法pm_img = cv2.imdecode(np.fromfile(pic_name, dtype=np.uint8), cv2.IMREAD_COLOR + cv2.IMREAD_IGNORE_ORIENTATION)pm_img = cv2.resize(pm_img, (1191, 1684))# 删除临时图片文件Path(pic_name).unlink(True)# 拼长图if img_stack is None:img_stack = np.vstack((pm_img,))else:img_stack = np.vstack((img_stack, pm_img))# 删除长图中的空白区域thin_img = shrink_img(img_stack, 100, 20)output_file = png_name if png_name is not None else str(pdf_path.joinpath(Path(pdf_name).stem + ".png").absolute())# cv2.imwrite(str(tmp_img_name.absolute()), thin_img) # 不支持中文目录# 采用下述方法保存到带中文的目录cv2.imencode('.png', thin_img)[1].tofile(output_file)def shrink_file(img_file,target_file):pm_img = cv2.imread(img_file)im = shrink_img(pm_img, 120, 20)cv2.imwrite(target_file, im)if __name__ == "__main__":pf = "d:/test_word.pdf"pdf_2_png(pf)

3. 图片空白行删除

def is_blank(line):"""判断本行是否空白行"""for pixel in line:if not all(n == 255 for n in pixel):return Falsereturn Truedef get_blank_block(img, begin_row, end_row, need_height):"""获取高度大于等于输入值的整块空白区域"""if (img is None) or (begin_row < 0) or (end_row < begin_row) or (need_height <= 0):return False, 0, 0if (end_row - begin_row) < need_height:return False, 0, 0start_row = -1found = Falsefound_height = 0for row in range(begin_row, end_row):line = img[row, :]if not is_blank(line):# 非空白,则判断高度是否符合if found_height >= need_height:breakstart_row = -1found_height = 0continue# 是空白行if start_row < 0:start_row = rowfound_height += 1if found_height >= need_height:found = Truereturn found, start_row, found_heightdef shrink_img(img, blank_height=50, reserve_height=20):"""将图片中过长的空白背景截取删除:对于图片中整行都是白色,且超过一定高度的,仅保留指定高度区域,其余删除。"""# 读取原始图片宽高height, width = img.shape[:2]found = Trueimg_stack = Nonebegin_row = 0while found:found, begin_blank_row, found_height = get_blank_block(img, begin_row, height, blank_height)if found:# 找到空白区域,将搜索起始行到空白起始行之间的图像加入stack,跳过空白区域,继续搜索img2 = img[begin_row: begin_blank_row + reserve_height, :]begin_row = begin_blank_row + found_heightelse:# 没找到空白区域,将搜索起始行到结束行的图像加入stackimg2 = img[begin_row:height, :]if img_stack is None:img_stack = np.vstack((img2,))else:img_stack = np.vstack((img_stack, img2))if img_stack is None:img_stack = imgreturn img_stackif __name__ == "__main__":img_info = cv2.imread("d:/test.png")thin_img = shrink_img(img_info, 60, 20)cv2.imshow('result', thin_img)cv2.waitKey(0)cv2.destroyAllWindows()

效果

  1. word原始文件,多页。
    在这里插入图片描述

  2. 拼接后的长图(分页之间存在空白)
    在这里插入图片描述

这篇关于Python实现word或pdf文件转png长图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/236510

相关文章

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四: