openCV实战-系列教程14:文档扫描OCR识别下(灰度/高斯滤波/边缘检测/轮廓检测/透视变换/tesseract OCR/pytesseract/OCR文字识别)项目实战、源码解读

本文主要是介绍openCV实战-系列教程14:文档扫描OCR识别下(灰度/高斯滤波/边缘检测/轮廓检测/透视变换/tesseract OCR/pytesseract/OCR文字识别)项目实战、源码解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

🧡💛💚💙💜OpenCV实战系列总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Pycharm中进行
本篇文章配套的代码资源已经上传

上篇内容:
openCV实战-系列教程11:文档扫描OCR识别上(图像轮廓/模版匹配)项目实战、源码解读
中篇内容:
openCV实战-系列教程13:文档扫描OCR识别中(图像轮廓/模版匹配)项目实战、源码解读

7、pytesseract文字识别

7.1 安装python工具包

上篇内容中,我们是安装了tesseract.exe,我们需要在代码中实现这个效果,那么就需要在命令行中安装pytesseract,

pip install pytesseract

没有任何要求

7.2 代码解读

preprocess = 'blur' #thresh
image = cv2.imread('scan.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
  1. 指定是滤波还是二值
  2. 读入图像
  3. 灰度
if preprocess == "thresh":gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
if preprocess == "blur":gray = cv2.medianBlur(gray, 3)

这段代码包含两个if语句,但是只会执行一个
是判断选择二值处理还是滤波处理,然后执行语句分别对应的是各自的操作

filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)
  1. os.getpid(),此方法返回一个整数值,该整数值表示当前进程的进程ID。此方法的返回类型为“ int”类,不需要参数,os.getpid()的返回值,充当占位符,filename最后保存了文件名的字符串
  2. 使用filename作为文件名,gray作为图像数据保存图像
text = pytesseract.image_to_string(Image.open(filename))
print(text)
os.remove(filename)
cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)    
  1. 使用
  2. 打印文本
  3. 打印原始图像
  4. 打印输出图像
  5. 关闭窗口

打印结果:

x x ee eR OK OK Oe KR OK KK

WHOLE FOODS MARKET - WESTPORT, CT 06880 399 POST RD WEST - (203)
227-6858

6b $65 365

365

F

BACUN LS BACON LS BACON LS BACUN LS BROTH CHIL LOUR ALMUND

CHKN BRST BNLSS SK

HEAVY CREAM

BALSMC REDUCT

BEEF

GRND 85/15

JUICE COF CASHEW -. DOCS PINT ORGAWEL HNY ALMOND BUTTER

eunene TAX

.00 BAL

NP hiP NP NP NP NP NP NP

nm

8、bug记录

C:\Users\18333\anaconda3\envs\pytorch\python.exe A:\2_gupao\ocr\test.py
Traceback (most recent call last):
  File"
C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py", line 255, in run_tesseract
    proc = subprocess.Popen(cmd_args, **subprocess_args())
  File “
C:\Users\18333\anaconda3\envs\pytorch\lib\subprocess.py”, line 858, in init
    self._execute_child(args, executable, preexec_fn, close_fds,
  File “
C:\Users\18333\anaconda3\envs\pytorch\lib\subprocess.py”, line 1327, in _execute_child
    hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File “
A:\2_gupao\ocr\test.py”, line 27, in module
    text = pytesseract.image_to_string(Image.open(filename))
  File “
C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 423, in image_to_string
    return {
  File “
C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 426, in lambda
    Output.STRING: lambda: run_and_get_output(*args),
  File “
C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 288, in run_and_get_output
    run_tesseract(**kwargs)
  File “
C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 260, in run_tesseract
    raise TesseractNotFoundError()
pytesseract. pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.

进程已结束,退出代码为 1

运行的时候出现这个bug,打开以下文件目录:

你的anaconda安装目录\anaconda3\envs\pytorch\Lib\site-packages\pytesseract

注意这里,第一每个人的anaconda安装目录不一样,第二,每个人的python环境也不一样,这里

anaconda3\envs\pytorch\Lib\site-packages\pytesseract

如果实在base环境中就是直接是

anaconda3\Lib\site-packages\pytesseract

我的是安装在了一个名为pytorch的python环境中
打开pytesseract.py文件,将这行代码:

tesseract_cmd = 'tesseract'

改为:

tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'

你直接复制过来的地址是这个斜杠\,应该改成这个/
这里每个人的tesseract的安装地址也不同,解决完这些应该就能运行了😇😇😇
如果还是不能运行,有可能是你的环境变量出错了,检查一下,一共有四处
如果还是不能运行!!!!!
建议更换tesseract.exe的版本,下载地址,推荐选择5.0.1版本,之前干的再干一遍。
还是不行的话😭😭😭
来加v找我给你debug:yzy-416

上篇内容:
openCV实战-系列教程11:文档扫描OCR识别上(图像轮廓/模版匹配)项目实战、源码解读
中篇内容:
openCV实战-系列教程13:文档扫描OCR识别中(图像轮廓/模版匹配)项目实战、源码解读

这篇关于openCV实战-系列教程14:文档扫描OCR识别下(灰度/高斯滤波/边缘检测/轮廓检测/透视变换/tesseract OCR/pytesseract/OCR文字识别)项目实战、源码解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/627066

相关文章

vcpkg安装opencv中的特殊问题记录(无法找到opencv_corexd.dll)

我是按照网上的vcpkg安装opencv方法进行的(比如这篇:从0开始在visual studio上安装opencv(超详细,针对小白)),但是中间出现了一些别人没有遇到的问题,虽然原因没有找到,但是本人给出一些暂时的解决办法: 问题1: 我在安装库命令行使用的是 .\vcpkg.exe install opencv 我的电脑是x64,vcpkg在这条命令后默认下载的也是opencv2:x6

React+TS前台项目实战(十七)-- 全局常用组件Dropdown封装

文章目录 前言Dropdown组件1. 功能分析2. 代码+详细注释3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲全局Dropdown组件封装,可根据UI设计师要求自定义修改。 Dropdown组件 1. 功能分析 (1)通过position属性,可以控制下拉选项的位置 (2)通过传入width属性, 可以自定义下拉选项的宽度 (3)通过传入classN

Android我的二维码扫描功能发展史(完整)

最近在研究下二维码扫描功能,跟据从网上查阅的资料到自己勉强已实现扫描功能来一一介绍我的二维码扫描功能实现的发展历程: 首页通过网络搜索发现做android二维码扫描功能看去都是基于google的ZXing项目开发。 2、搜索怎么使用ZXing实现自己的二维码扫描:从网上下载ZXing-2.2.zip以及core-2.2-source.jar文件,分别解压两个文件。然后把.jar解压出来的整个c

springboot家政服务管理平台 LW +PPT+源码+讲解

3系统的可行性研究及需求分析 3.1可行性研究 3.1.1技术可行性分析 经过大学四年的学习,已经掌握了JAVA、Mysql数据库等方面的编程技巧和方法,对于这些技术该有的软硬件配置也是齐全的,能够满足开发的需要。 本家政服务管理平台采用的是Mysql作为数据库,可以绝对地保证用户数据的安全;可以与Mysql数据库进行无缝连接。 所以,家政服务管理平台在技术上是可以实施的。 3.1

Steam邮件推送内容有哪些?配置教程详解!

Steam邮件推送功能是否安全?如何个性化邮件推送内容? Steam作为全球最大的数字游戏分发平台之一,不仅提供了海量的游戏资源,还通过邮件推送为用户提供最新的游戏信息、促销活动和个性化推荐。AokSend将详细介绍Steam邮件推送的主要内容。 Steam邮件推送:促销优惠 每当平台举办大型促销活动,如夏季促销、冬季促销、黑色星期五等,用户都会收到邮件通知。这些邮件详细列出了打折游戏、

JavaWeb系列二十: jQuery的DOM操作 下

jQuery的DOM操作 CSS-DOM操作多选框案例页面加载完毕触发方法作业布置jQuery获取选中复选框的值jQuery控制checkbox被选中jQuery控制(全选/全不选/反选)jQuery动态添加删除用户 CSS-DOM操作 获取和设置元素的样式属性: css()获取和设置元素透明度: opacity属性获取和设置元素高度, 宽度: height(), widt

高仿精仿愤怒的小鸟android版游戏源码

这是一款很完美的高仿精仿愤怒的小鸟android版游戏源码,大家可以研究一下吧、 为了报复偷走鸟蛋的肥猪们,鸟儿以自己的身体为武器,仿佛炮弹一样去攻击肥猪们的堡垒。游戏是十分卡通的2D画面,看着愤怒的红色小鸟,奋不顾身的往绿色的肥猪的堡垒砸去,那种奇妙的感觉还真是令人感到很欢乐。而游戏的配乐同样充满了欢乐的感觉,轻松的节奏,欢快的风格。 源码下载

X-AnyLabeling使用教程

1.AI 模型自动分割标注使用教程 2.AI 模型自动目标检测标注使用教程

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506