本文主要是介绍openCV实战-系列教程14:文档扫描OCR识别下(灰度/高斯滤波/边缘检测/轮廓检测/透视变换/tesseract OCR/pytesseract/OCR文字识别)项目实战、源码解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
🧡💛💚💙💜OpenCV实战系列总目录
有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Pycharm中进行
本篇文章配套的代码资源已经上传
上篇内容:
openCV实战-系列教程11:文档扫描OCR识别上(图像轮廓/模版匹配)项目实战、源码解读
中篇内容:
openCV实战-系列教程13:文档扫描OCR识别中(图像轮廓/模版匹配)项目实战、源码解读
7、pytesseract文字识别
7.1 安装python工具包
上篇内容中,我们是安装了tesseract.exe,我们需要在代码中实现这个效果,那么就需要在命令行中安装pytesseract,
pip install pytesseract
没有任何要求
7.2 代码解读
preprocess = 'blur' #thresh
image = cv2.imread('scan.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
- 指定是滤波还是二值
- 读入图像
- 灰度
if preprocess == "thresh":gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
if preprocess == "blur":gray = cv2.medianBlur(gray, 3)
这段代码包含两个if语句,但是只会执行一个
是判断选择二值处理还是滤波处理,然后执行语句分别对应的是各自的操作
filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)
- os.getpid(),此方法返回一个整数值,该整数值表示当前进程的进程ID。此方法的返回类型为“ int”类,不需要参数,os.getpid()的返回值,充当占位符,filename最后保存了文件名的字符串
- 使用filename作为文件名,gray作为图像数据保存图像
text = pytesseract.image_to_string(Image.open(filename))
print(text)
os.remove(filename)
cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)
- 使用
- 打印文本
- 打印原始图像
- 打印输出图像
- 关闭窗口
打印结果:
x x ee eR OK OK Oe KR OK KK
WHOLE FOODS MARKET - WESTPORT, CT 06880 399 POST RD WEST - (203)
227-68586b $65 365
365
F
BACUN LS BACON LS BACON LS BACUN LS BROTH CHIL LOUR ALMUND
CHKN BRST BNLSS SK
HEAVY CREAM
BALSMC REDUCT
BEEF
GRND 85/15
JUICE COF CASHEW -. DOCS PINT ORGAWEL HNY ALMOND BUTTER
eunene TAX
.00 BAL
NP hiP NP NP NP NP NP NP
nm
8、bug记录
C:\Users\18333\anaconda3\envs\pytorch\python.exe A:\2_gupao\ocr\test.py
Traceback (most recent call last):
File" C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py", line 255, in run_tesseract
proc = subprocess.Popen(cmd_args, **subprocess_args())
File “ C:\Users\18333\anaconda3\envs\pytorch\lib\subprocess.py”, line 858, in init
self._execute_child(args, executable, preexec_fn, close_fds,
File “C:\Users\18333\anaconda3\envs\pytorch\lib\subprocess.py”, line 1327, in _execute_child
hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
FileNotFoundError: [WinError 2] 系统找不到指定的文件。
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File “A:\2_gupao\ocr\test.py”, line 27, in module
text = pytesseract.image_to_string(Image.open(filename))
File “C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 423, in image_to_string
return {
File “C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 426, in lambda
Output.STRING: lambda: run_and_get_output(*args),
File “C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 288, in run_and_get_output
run_tesseract(**kwargs)
File “C:\Users\18333\anaconda3\envs\pytorch\lib\site-packages\pytesseract\pytesseract.py”, line 260, in run_tesseract
raise TesseractNotFoundError()
pytesseract. pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
进程已结束,退出代码为 1
运行的时候出现这个bug,打开以下文件目录:
你的anaconda安装目录\anaconda3\envs\pytorch\Lib\site-packages\pytesseract
注意这里,第一每个人的anaconda安装目录不一样,第二,每个人的python环境也不一样,这里
anaconda3\envs\pytorch\Lib\site-packages\pytesseract
如果实在base环境中就是直接是
anaconda3\Lib\site-packages\pytesseract
我的是安装在了一个名为pytorch的python环境中
打开pytesseract.py文件,将这行代码:
tesseract_cmd = 'tesseract'
改为:
tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
你直接复制过来的地址是这个斜杠\,应该改成这个/
这里每个人的tesseract的安装地址也不同,解决完这些应该就能运行了😇😇😇
如果还是不能运行,有可能是你的环境变量出错了,检查一下,一共有四处
如果还是不能运行!!!!!
建议更换tesseract.exe的版本,下载地址,推荐选择5.0.1版本,之前干的再干一遍。
还是不行的话😭😭😭
来加v找我给你debug:yzy-416
上篇内容:
openCV实战-系列教程11:文档扫描OCR识别上(图像轮廓/模版匹配)项目实战、源码解读
中篇内容:
openCV实战-系列教程13:文档扫描OCR识别中(图像轮廓/模版匹配)项目实战、源码解读
这篇关于openCV实战-系列教程14:文档扫描OCR识别下(灰度/高斯滤波/边缘检测/轮廓检测/透视变换/tesseract OCR/pytesseract/OCR文字识别)项目实战、源码解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!