Ocr之TesseractOcr的安装及使用

2024-02-13 08:44
文章标签 安装 使用 ocr tesseractocr

本文主要是介绍Ocr之TesseractOcr的安装及使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、安装环境

二、安装内容

三、安装过程及识别测试

1. 安装过程
2. 程序编写

总结

1. 安装复杂度较低
2. 国外开源Ocr
3. 可设置识别参数
4. 工具类

一、 系统环境windows 10

linux环境也可安装, 可借鉴此篇文章>> |

二、安装内容

Tesseract exe 程序安装
exe程序下载地址, 可选择版本安装>> |

# 我们这里安装的版本是
tesseract-ocr-w64-setup-5.3.1.20230401.exe

三、安装过程及识别测试

1. 安装过程
  • 安装后的目录结构
    默认安装在C盘。可选择路径。傻瓜式安装就可以
    在这里插入图片描述
  • 添加环境变量 TESSDATA_PREFIX=<安装的tessoract-ocr.exe后文件夹根路径>/tessdata
    在这里插入图片描述
2. 程序编写
  • 使用Tesseract进行识别程序的编写
    目前使用TesseractOcr已经更换为 PaddleOcr 了。源于TesseractOcr对背景模糊的图片识别率不高,使用PaddleOcr后识别率有明显提高。
    不过使用PaddleOcr识别过程会将图片进行预处理(图片放大和模糊处理再使用paddleocr识别效果更佳:后期会做记录并将链接加到此处)

  • 使用java程序进行识别需要引用 mvn 第三方依赖

    <!--ocr图像识别--><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>5.3.0</version></dependency>
    
  • 单元测试用例+执行结果
    在这里插入图片描述
    下方代码中对上方图片进行识别(图片名称:new33.jpg)

    @Test
    public void readImageByOcr() throws TesseractException {String imgSrc = "C:\\...\\changepic\\new33.jpg";File imgFile = new File(imgSrc);//创建tesseract对象Tesseract tes = new Tesseract();//语言包位置  根据实际环境修改替换tes.setDatapath("E:\\...\\Tesseract-OCR\\tessdata");//配置使用的语言  中文tes.setLanguage("eng");String imgText = tes.doOCR(imgFile);System.out.println("解析结果:" + imgText);
    }
    

    执行后
    在这里插入图片描述

  • 业务代码示例
    结合业务代码使用TesseractOcr。TesseractOcr使用时可传入不通参数。如language, variable等。
    tessedit_char_whitelist:设置白名单。下方demo限制内容为只能识别数字和字母

    /*** ocr识别* @param img* @param dataPath* @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)* @param dpi 分辨率, 默认 96* @param charNoLimit 识别空格: true, 不识别空格: false* @return* @throws TesseractException*/private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {// 初始化 OCR 引擎Tesseract tesseract = new Tesseract();File tessDataFolder = LoadLibs.extractTessResources("tessdata");tesseract.setDatapath(tessDataFolder.getAbsolutePath());//语言包位置  根据实际环境修改替换tesseract.setDatapath(dataPath);//配置使用的语言  中文tesseract.setLanguage("eng");if(!charNoLimit) {//限制只识别数字字母tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");}//设置分辨率tesseract.setVariable("user_defined_dpi", dpi);String result = tesseract.doOCR(img);if(replacedEmp) {// 文字识别-过滤空白、换行符result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);}return result;}
    

总结

  1. 安装复杂度较低。
    相比于paddleocr的安装要简单的多(需要安装python环境及下载paddleocr相关内容)。paddleocr安装借鉴 gitee paddleocr开源代码>> |
  2. 属于国外开源Ocr。
  3. 可设置识别参数。可设置变量与识别语言。
  4. 使用Ocr时用到的工具类。可自行测试
package util;import cn.hutool.core.util.StrUtil;
import common.aspect.core.StringUtils;
import common.exception.CustomException;
import PO.RecognizeTemplate;
import service.PrintDcmOcrRecognizeService;
import lombok.extern.slf4j.Slf4j;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.beans.factory.annotation.Value;import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.stream.ImageInputStream;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.awt.image.RasterFormatException;
import java.io.File;
import java.io.IOException;
import java.lang.reflect.Method;
import java.util.HashMap;
import java.util.Map;@Slf4j
public class ReadTextFromFileRegion {/*** @Description: ocr按区域识别文件**/public static String doRecognize(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)throws Exception {if (!file.exists()) {throw new CustomException(0, "待识别文件不存在");}// OCR 文字识别return doOcr(createImg(file, rectangle, formateName), dataPath, dpi);}/*** file: 图片文件* rectangle: 图片中需要识别的区域。如new Rectangle(x, y, w, h), 坐标及宽高* dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)* formateName: file文件的格式。如 JPG, PNG, DICOM等, * dpi: tesseractOcr识别时传入的参数。如:tesseract.setVariable("user_defined_dpi", dpi);*/public static String doRecognizeOrcOriginResult(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)throws Exception {if (!file.exists()) {throw new CustomException(0, "待识别文件不存在");}// OCR 文字识别return doOcrImpl(createImg(file, rectangle, formateName), dataPath, false, dpi, true);}/*** 截取的图像缓冲区*/private static BufferedImage createImg(File file, Rectangle rectangle, String formateName) throws Exception {BufferedImage img = readFile(file, rectangle, formateName);if(img == null) {log.warn("读取图像异常: img == null");throw new Exception("文件读取异常, 创建img为空.");}return img;}/*** @Description: 把文件转为BufferedImage对象,并截取指定区域**/private static BufferedImage readFile(File file, Rectangle region, String formateName) throws IOException {ImageInputStream iis = null;ImageReader reader = null;try {// 创建 ImageInputStream 对象iis = ImageIO.createImageInputStream(file);// 获取 指定 文件的 ImageReader 实例reader = ImageIO.getImageReadersByFormatName(formateName).next();// 设置解码器reader.setInput(iis);// 如果需要截取图像,获取完整的BufferedImage,然后截取指定区域BufferedImage image = reader.read(0);BufferedImage subImage = null;try{subImage = image.getSubimage(region.x, region.y, region.width, region.height);}catch (RasterFormatException e) {log.warn("截取图像异常: 识别区域超出边界. err.msg: {}", e.toString());return subImage;}// 释放完整的BufferedImageimage.flush();return subImage;} finally {// 关闭资源if (reader != null) {reader.dispose();}if (iis != null) {iis.close();}}}/*** @Description: ocr按区域识别pdf文件**/public static String doPdfRecognize(File pdfFile, String dataPath) throws Exception {BufferedImage img = readPdfToImage(pdfFile);// 按自定义区域截取图像BufferedImage subImage = img.getSubimage(460, 170, 320, 100);// OCR 文字识别return doOcr(subImage, dataPath, "120");}/*** @Description: 把pdf转为图像,renderImageWithDPI方法的第二个参数dpi影响图像分辨率,经测试dpi为300,生成2k分辨率的图像**/private static BufferedImage readPdfToImage(File pdfFile) throws IOException {try (PDDocument document = PDDocument.load(pdfFile)) {PDFRenderer renderer = new PDFRenderer(document);return renderer.renderImageWithDPI(0, 300);}}/*** @Description: 使用Tesseract进行ocr识别**/private static String doOcr(BufferedImage img, String dataPath, String dpi) throws TesseractException {return doOcrImpl(img, dataPath, true, dpi, false);}/*** ocr识别* @param img* dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)* @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)* @param dpi 分辨率, 默认 96* @param charNoLimit 识别空格: true, 不识别空格: false* @return* @throws TesseractException*/private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {// 初始化 OCR 引擎Tesseract tesseract = new Tesseract();File tessDataFolder = LoadLibs.extractTessResources("tessdata");tesseract.setDatapath(tessDataFolder.getAbsolutePath());//语言包位置  根据实际环境修改替换tesseract.setDatapath(dataPath);//配置使用的语言  中文tesseract.setLanguage("eng");if(!charNoLimit) {//限制只识别数字字母tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");}//设置分辨率tesseract.setVariable("user_defined_dpi", dpi);String result = tesseract.doOCR(img);if(replacedEmp) {// 文字识别-过滤空白、换行符result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);}return result;}
}

这篇关于Ocr之TesseractOcr的安装及使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/705052

相关文章

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

如何解决mmcv无法安装或安装之后报错问题

《如何解决mmcv无法安装或安装之后报错问题》:本文主要介绍如何解决mmcv无法安装或安装之后报错问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mmcv无法安装或安装之后报错问题1.当我们运行YOwww.chinasem.cnLO时遇到2.找到下图所示这里3.

Pydantic中Optional 和Union类型的使用

《Pydantic中Optional和Union类型的使用》本文主要介绍了Pydantic中Optional和Union类型的使用,这两者在处理可选字段和多类型字段时尤为重要,文中通过示例代码介绍的... 目录简介Optional 类型Union 类型Optional 和 Union 的组合总结简介Pyd

Vue3使用router,params传参为空问题

《Vue3使用router,params传参为空问题》:本文主要介绍Vue3使用router,params传参为空问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录vue3使用China编程router,params传参为空1.使用query方式传参2.使用 Histo

Python 安装和配置flask, flask_cors的图文教程

《Python安装和配置flask,flask_cors的图文教程》:本文主要介绍Python安装和配置flask,flask_cors的图文教程,本文通过图文并茂的形式给大家介绍的非常详细,... 目录一.python安装:二,配置环境变量,三:检查Python安装和环境变量,四:安装flask和flas

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

使用Python实现一键隐藏屏幕并锁定输入

《使用Python实现一键隐藏屏幕并锁定输入》本文主要介绍了使用Python编写一个一键隐藏屏幕并锁定输入的黑科技程序,能够在指定热键触发后立即遮挡屏幕,并禁止一切键盘鼠标输入,这样就再也不用担心自己... 目录1. 概述2. 功能亮点3.代码实现4.使用方法5. 展示效果6. 代码优化与拓展7. 总结1.

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Linux中的计划任务(crontab)使用方式

《Linux中的计划任务(crontab)使用方式》:本文主要介绍Linux中的计划任务(crontab)使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、前言1、linux的起源与发展2、什么是计划任务(crontab)二、crontab基础1、cro