本文主要是介绍两行代码搞定python OCR图像文字识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目前OCR主要依赖几个低层库,本博客采用Tesseract,Tesseract是由Google维护的开源OCR。本博客在windows环境进行,linux环境同理。
1、安装Tesseract:
windows下Tesseract的安装比较简单,下载exe然后一直next下去就行了。但是由于要做中文的识别,所以一定在安装的时候要勾选相应的中文库,这个安装时是默认不下载的。
2、安装pytesseract
pytesseract是对tesseract做的一层Python API封装。
pip3 install pytesseract
3、编写py代码:
import pytesseract
from PIL import Imagepytesseract.pytesseract.tesseract_cmd = 'D://ocr/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('D://ocr/qximg/test1.png'),lang='chi_sim')
首先导入相应的库。第一行代码从正确的位置引入tesseract运行文件。第二行代码选择要识别的图片,设置简体中文识别。text即为图片中中文的内容。
这篇关于两行代码搞定python OCR图像文字识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!