Python识别PDF扫描版PDF纯图PDF,OCR提取汉字的10大方法,力推RapidOCRPDF 可识别纯图PDF 加密签名的PDF 重点是开源免费,某些方面准确度比百度OCR高

本文主要是介绍Python识别PDF扫描版PDF纯图PDF,OCR提取汉字的10大方法,力推RapidOCRPDF 可识别纯图PDF 加密签名的PDF 重点是开源免费,某些方面准确度比百度OCR高,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

下面实例都以下面的测试样例PDF为实验对象

非纯图可复制pdf

在这里插入图片描述

纯图PDF

在这里插入图片描述

TOP1:RapidOCRPDF 可识别纯图PDF也能识别加密签名的PDF 重点是开源免费

https://github.com/RapidAI/RapidOCRPDF

# 基于rapidocr_onnxruntime
pip install rapidocr_pdf[onnxruntime]# 基于rapidocr_openvino
pip install rapidocr_pdf[openvino]

依托于RapidOCR仓库,快速提取PDF中文字,包括扫描版PDF、加密版PDF。
如果是可以直接复制的PDF,可以直接使用pdf2docx,不再重复造轮子
如果是扫描版PDF,暂时不支持版式还原,后续有空会考虑加上,日期不定。

from rapidocr_pdf import PDFExtracterpdf_extracter = PDFExtracter()pdf_path = 'example4.pdf'
texts = pdf_extracter(pdf_path)print(texts)

在这里插入图片描述

优化版,修改源码,得到位置版式

[['0', '甬金铁路涉及220千伏岩礼4R92线岩泉4R93线#21-#23塔迁改工程中标结果公\n(招标编号:ZJGZDL-2023-04-N02)\n一、中标人信息:\n标段(包)[001]甬金铁路涉及220千伏岩礼4R92线岩泉4R93线#21-#23塔迁改工程:\n中标人:绍兴建元电力集团有限公司\n中标费率:下浮3.50%\n二、其他:\n绍兴建元电力集团有限公司为中标人\n三、监督部门\n本招标项目的监督部门为绍兴电力局招投标管理中心。\n四、联系方式\n招标人:嵊州市铁路项目工程建设指挥部\n地址:绍兴嵊州市\n联系人:吕先旺\n电话:18069621508\n电子邮件:544142621@qq.com\n招标代理机构:浙江广正建设项目管理有限公司\n地址:\n浙江省绍兴市越城区阳明北路80号A楼四楼4-1\n联系人:\n高强\n电话:\n13867532448\n电子邮件:\n734201819@qq.com\n%(签名)\n招标人或其招标代理机构主要负责人(项目负)\n上海有限公公\n招标人或其招标代理机构:\n(盖章)\n正建设\n浙江', '1.0']]
import json
import warnings
from pathlib import Path
from typing import Dict, List, Tuple, Union
import filetype
import fitz
import cv2
import numpy as np
from rapidocr_onnxruntime import RapidOCR
from rapidocr_pdf import PDFExtracter, PDFExtracterErrorclass PDFExtracterABC(PDFExtracter):def __init__(self, dpi=200):super(PDFExtracterABC, self).__init__(dpi)def __call__(self, content: Union[str, Path, bytes]) -> List:try:file_type = self.which_type(content)except (FileExistsError, TypeError) as e:raise PDFExtracterError('The input content is empty.') from eif file_type != 'pdf':raise PDFExtracterError('The file type is not PDF format.')try:pdf_data = self.load_pdf(content)except PDFExtracterError as e:warnings.warn(str(e))return self.empyt_listtxts_dict, page_idxs = self.extract_texts(pdf_data)page_img_dict = self.read_pdf_with_image(pdf_data, page_idxs)ocr_res_list = self.get_ocr_res(page_img_dict)return ocr_res_listdef get_ocr_res(self, page_img_dict: Dict) -> List:ocr_res = []for k, v in page_img_dict.items():preds, _ = self.text_sys(v)if preds:i, rec_res, _ = list(zip(*preds))print(i, rec_res, _)det_list = []for m, n in zip(i, rec_res):det_dict = {'position': m,'text': n}det_list.append(det_dict)data = {'page': k,'det': det_list}ocr_res.append(data)# ocr_res[str(k)] = '\n'.join(rec_res)return ocr_respdf_extracter = PDFExtracterABC()pdf_path = 'example.pdf'
texts = pdf_extracter(pdf_path)
print(json.dumps(texts, indent=4, ensure_ascii=False))
([[234.0, 243.0], [1343.0, 245.0], [1343.0, 278.0], [234.0, 276.0]], [[550.0, 373.0], [1029.0, 373.0], [1029.0, 404.0], [550.0, 404.0]], [[236.0, 521.0], [469.0, 521.0], [469.0, 551.0], [236.0, 551.0]], [[275.0, 584.0], [1304.0, 586.0], [1304.0, 616.0], [275.0, 614.0]], [[317.0, 647.0], [765.0, 650.0], [765.0, 680.0], [317.0, 677.0]], [[854.0, 652.0], [1125.0, 652.0], [1125.0, 679.0], [854.0, 679.0]], [[231.0, 708.0], [374.0, 708.0], [374.0, 746.0], [231.0, 746.0]], [[275.0, 776.0], [722.0, 776.0], [722.0, 806.0], [275.0, 806.0]], [[230.0, 838.0], [424.0, 838.0], [424.0, 871.0], [230.0, 871.0]], [[274.0, 904.0], [932.0, 905.0], [932.0, 935.0], [274.0, 934.0]], [[231.0, 965.0], [426.0, 965.0], [426.0, 998.0], [231.0, 998.0]], [[272.0, 1031.0], [808.0, 1031.0], [808.0, 1060.0], [272.0, 1060.0]], [[268.0, 1090.0], [555.0, 1090.0], [555.0, 1126.0], [268.0, 1126.0]], 

这篇关于Python识别PDF扫描版PDF纯图PDF,OCR提取汉字的10大方法,力推RapidOCRPDF 可识别纯图PDF 加密签名的PDF 重点是开源免费,某些方面准确度比百度OCR高的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/602426

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss