Ocr之TesseractOcr的安装及使用

2024-02-13 08:44
文章标签 安装 使用 ocr tesseractocr

本文主要是介绍Ocr之TesseractOcr的安装及使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、安装环境

二、安装内容

三、安装过程及识别测试

1. 安装过程
2. 程序编写

总结

1. 安装复杂度较低
2. 国外开源Ocr
3. 可设置识别参数
4. 工具类

一、 系统环境windows 10

linux环境也可安装, 可借鉴此篇文章>> |

二、安装内容

Tesseract exe 程序安装
exe程序下载地址, 可选择版本安装>> |

# 我们这里安装的版本是
tesseract-ocr-w64-setup-5.3.1.20230401.exe

三、安装过程及识别测试

1. 安装过程
  • 安装后的目录结构
    默认安装在C盘。可选择路径。傻瓜式安装就可以
    在这里插入图片描述
  • 添加环境变量 TESSDATA_PREFIX=<安装的tessoract-ocr.exe后文件夹根路径>/tessdata
    在这里插入图片描述
2. 程序编写
  • 使用Tesseract进行识别程序的编写
    目前使用TesseractOcr已经更换为 PaddleOcr 了。源于TesseractOcr对背景模糊的图片识别率不高,使用PaddleOcr后识别率有明显提高。
    不过使用PaddleOcr识别过程会将图片进行预处理(图片放大和模糊处理再使用paddleocr识别效果更佳:后期会做记录并将链接加到此处)

  • 使用java程序进行识别需要引用 mvn 第三方依赖

    <!--ocr图像识别--><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>5.3.0</version></dependency>
    
  • 单元测试用例+执行结果
    在这里插入图片描述
    下方代码中对上方图片进行识别(图片名称:new33.jpg)

    @Test
    public void readImageByOcr() throws TesseractException {String imgSrc = "C:\\...\\changepic\\new33.jpg";File imgFile = new File(imgSrc);//创建tesseract对象Tesseract tes = new Tesseract();//语言包位置  根据实际环境修改替换tes.setDatapath("E:\\...\\Tesseract-OCR\\tessdata");//配置使用的语言  中文tes.setLanguage("eng");String imgText = tes.doOCR(imgFile);System.out.println("解析结果:" + imgText);
    }
    

    执行后
    在这里插入图片描述

  • 业务代码示例
    结合业务代码使用TesseractOcr。TesseractOcr使用时可传入不通参数。如language, variable等。
    tessedit_char_whitelist:设置白名单。下方demo限制内容为只能识别数字和字母

    /*** ocr识别* @param img* @param dataPath* @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)* @param dpi 分辨率, 默认 96* @param charNoLimit 识别空格: true, 不识别空格: false* @return* @throws TesseractException*/private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {// 初始化 OCR 引擎Tesseract tesseract = new Tesseract();File tessDataFolder = LoadLibs.extractTessResources("tessdata");tesseract.setDatapath(tessDataFolder.getAbsolutePath());//语言包位置  根据实际环境修改替换tesseract.setDatapath(dataPath);//配置使用的语言  中文tesseract.setLanguage("eng");if(!charNoLimit) {//限制只识别数字字母tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");}//设置分辨率tesseract.setVariable("user_defined_dpi", dpi);String result = tesseract.doOCR(img);if(replacedEmp) {// 文字识别-过滤空白、换行符result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);}return result;}
    

总结

  1. 安装复杂度较低。
    相比于paddleocr的安装要简单的多(需要安装python环境及下载paddleocr相关内容)。paddleocr安装借鉴 gitee paddleocr开源代码>> |
  2. 属于国外开源Ocr。
  3. 可设置识别参数。可设置变量与识别语言。
  4. 使用Ocr时用到的工具类。可自行测试
package util;import cn.hutool.core.util.StrUtil;
import common.aspect.core.StringUtils;
import common.exception.CustomException;
import PO.RecognizeTemplate;
import service.PrintDcmOcrRecognizeService;
import lombok.extern.slf4j.Slf4j;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.beans.factory.annotation.Value;import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.stream.ImageInputStream;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.awt.image.RasterFormatException;
import java.io.File;
import java.io.IOException;
import java.lang.reflect.Method;
import java.util.HashMap;
import java.util.Map;@Slf4j
public class ReadTextFromFileRegion {/*** @Description: ocr按区域识别文件**/public static String doRecognize(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)throws Exception {if (!file.exists()) {throw new CustomException(0, "待识别文件不存在");}// OCR 文字识别return doOcr(createImg(file, rectangle, formateName), dataPath, dpi);}/*** file: 图片文件* rectangle: 图片中需要识别的区域。如new Rectangle(x, y, w, h), 坐标及宽高* dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)* formateName: file文件的格式。如 JPG, PNG, DICOM等, * dpi: tesseractOcr识别时传入的参数。如:tesseract.setVariable("user_defined_dpi", dpi);*/public static String doRecognizeOrcOriginResult(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)throws Exception {if (!file.exists()) {throw new CustomException(0, "待识别文件不存在");}// OCR 文字识别return doOcrImpl(createImg(file, rectangle, formateName), dataPath, false, dpi, true);}/*** 截取的图像缓冲区*/private static BufferedImage createImg(File file, Rectangle rectangle, String formateName) throws Exception {BufferedImage img = readFile(file, rectangle, formateName);if(img == null) {log.warn("读取图像异常: img == null");throw new Exception("文件读取异常, 创建img为空.");}return img;}/*** @Description: 把文件转为BufferedImage对象,并截取指定区域**/private static BufferedImage readFile(File file, Rectangle region, String formateName) throws IOException {ImageInputStream iis = null;ImageReader reader = null;try {// 创建 ImageInputStream 对象iis = ImageIO.createImageInputStream(file);// 获取 指定 文件的 ImageReader 实例reader = ImageIO.getImageReadersByFormatName(formateName).next();// 设置解码器reader.setInput(iis);// 如果需要截取图像,获取完整的BufferedImage,然后截取指定区域BufferedImage image = reader.read(0);BufferedImage subImage = null;try{subImage = image.getSubimage(region.x, region.y, region.width, region.height);}catch (RasterFormatException e) {log.warn("截取图像异常: 识别区域超出边界. err.msg: {}", e.toString());return subImage;}// 释放完整的BufferedImageimage.flush();return subImage;} finally {// 关闭资源if (reader != null) {reader.dispose();}if (iis != null) {iis.close();}}}/*** @Description: ocr按区域识别pdf文件**/public static String doPdfRecognize(File pdfFile, String dataPath) throws Exception {BufferedImage img = readPdfToImage(pdfFile);// 按自定义区域截取图像BufferedImage subImage = img.getSubimage(460, 170, 320, 100);// OCR 文字识别return doOcr(subImage, dataPath, "120");}/*** @Description: 把pdf转为图像,renderImageWithDPI方法的第二个参数dpi影响图像分辨率,经测试dpi为300,生成2k分辨率的图像**/private static BufferedImage readPdfToImage(File pdfFile) throws IOException {try (PDDocument document = PDDocument.load(pdfFile)) {PDFRenderer renderer = new PDFRenderer(document);return renderer.renderImageWithDPI(0, 300);}}/*** @Description: 使用Tesseract进行ocr识别**/private static String doOcr(BufferedImage img, String dataPath, String dpi) throws TesseractException {return doOcrImpl(img, dataPath, true, dpi, false);}/*** ocr识别* @param img* dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)* @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)* @param dpi 分辨率, 默认 96* @param charNoLimit 识别空格: true, 不识别空格: false* @return* @throws TesseractException*/private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {// 初始化 OCR 引擎Tesseract tesseract = new Tesseract();File tessDataFolder = LoadLibs.extractTessResources("tessdata");tesseract.setDatapath(tessDataFolder.getAbsolutePath());//语言包位置  根据实际环境修改替换tesseract.setDatapath(dataPath);//配置使用的语言  中文tesseract.setLanguage("eng");if(!charNoLimit) {//限制只识别数字字母tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");}//设置分辨率tesseract.setVariable("user_defined_dpi", dpi);String result = tesseract.doOCR(img);if(replacedEmp) {// 文字识别-过滤空白、换行符result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);}return result;}
}

这篇关于Ocr之TesseractOcr的安装及使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/705052

相关文章

gradle安装和环境配置全过程

《gradle安装和环境配置全过程》本文介绍了如何安装和配置Gradle环境,包括下载Gradle、配置环境变量、测试Gradle以及在IntelliJIDEA中配置Gradle... 目录gradle安装和环境配置1 下载GRADLE2 环境变量配置3 测试gradle4 设置gradle初始化文件5 i

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

mac安装redis全过程

《mac安装redis全过程》文章内容主要介绍了如何从官网下载指定版本的Redis,以及如何在自定义目录下安装和启动Redis,还提到了如何修改Redis的密码和配置文件,以及使用RedisInsig... 目录MAC安装Redis安装启动redis 配置redis 常用命令总结mac安装redis官网下

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —