使用百度飞桨PaddleOCR进行OCR识别

2024-09-06 22:44

本文主要是介绍使用百度飞桨PaddleOCR进行OCR识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、代码及文档

代码:https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file

介绍文档:https://paddlepaddle.github.io/PaddleOCR/ppocr/overview.html

2、依赖安装

在使用过程中需要安装库,可以依据代码运行过程中的提示安装。我使用的为python3.7,安装库为:
在这里插入图片描述

3、poppler for PDF OCR

我主要使用图片OCR以及PDF转DOCX文件,后者需要poppler,我使用的系统为windows.在此处进行下载:
https://github.com/oschwartz10612/poppler-windows/releases/tag/v24.07.0-0
解压后需要将poppler的bin路径加到系统环境变量path中

4、图像ocr代码样例:

from paddleocr import PaddleOCR, draw_ocr# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
img_path = './doc/imgs_en/254.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):res = result[idx]for line in res:print(line)# 显示结果
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

5、pdf ocr代码样例:

import osfrom pdf2image import convert_from_path
from paddleocr import PaddleOCR
import numpy as np
from docx import Document
from PIL import Image
current_path = os.path.abspath(__file__)
father_path = os.path.abspath(os.path.dirname(current_path))
input_path = os.path.join(father_path, 'mydata', 'input', '种植品种推荐1.pdf')
output_path = os.path.join(father_path, 'mydata', 'output', '种植品种推荐1.docx')
# 步骤 1: 将 PDF 转换为图片
pages = convert_from_path(input_path, 300)  # 转换为 PIL 图像对象# 步骤 2: 初始化 OCR 模型
ocr = PaddleOCR(use_angle_cls=True, lang='ch')# 步骤 3: 遍历每一页,进行 OCR 处理
results = []
for page in pages:# 将 PIL 图像转换为 numpy 数组page_np = np.array(page)# 使用 OCR 提取文本ocr_result = ocr.ocr(page_np, cls=True)page_text = []for line in ocr_result:if line:  # 检查 line 是否为 Nonefor word_info in line:# word_info 包含了文本和置信度text, confidence = word_info[1]page_text.append(text)  # 提取文本部分results.append('\n'.join(page_text))# 打印提取的文本
# for result in results:
#     print(result)# 步骤 4: 将文本保存为 DOCX 文件
doc = Document()
for i, page_text in enumerate(results, 1):doc.add_heading(f'Page {i}', level=1)doc.add_paragraph(page_text)doc.save(output_path)

注意修改为自己的文件路径

6、识别效果:

原文件:
在这里插入图片描述

识别效果:
在这里插入图片描述

这篇关于使用百度飞桨PaddleOCR进行OCR识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143328

相关文章

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

Linux内核定时器使用及说明

《Linux内核定时器使用及说明》文章详细介绍了Linux内核定时器的特性、核心数据结构、时间相关转换函数以及操作API,通过示例展示了如何编写和使用定时器,包括按键消抖的应用... 目录1.linux内核定时器特征2.Linux内核定时器核心数据结构3.Linux内核时间相关转换函数4.Linux内核定时

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Spring配置扩展之JavaConfig的使用小结

《Spring配置扩展之JavaConfig的使用小结》JavaConfig是Spring框架中基于纯Java代码的配置方式,用于替代传统的XML配置,通过注解(如@Bean)定义Spring容器的组... 目录JavaConfig 的概念什么是JavaConfig?为什么使用 JavaConfig?Jav

Java使用Spire.Doc for Java实现Word自动化插入图片

《Java使用Spire.DocforJava实现Word自动化插入图片》在日常工作中,Word文档是不可或缺的工具,而图片作为信息传达的重要载体,其在文档中的插入与布局显得尤为关键,下面我们就来... 目录1. Spire.Doc for Java库介绍与安装2. 使用特定的环绕方式插入图片3. 在指定位

Springboot3 ResponseEntity 完全使用案例

《Springboot3ResponseEntity完全使用案例》ResponseEntity是SpringBoot中控制HTTP响应的核心工具——它能让你精准定义响应状态码、响应头、响应体,相比... 目录Spring Boot 3 ResponseEntity 完全使用教程前置准备1. 项目基础依赖(M

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco