PIL + pytesseract 玩转验证码图片识别

2024-05-23 21:32

本文主要是介绍PIL + pytesseract 玩转验证码图片识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有时候我们在模拟登陆的时候会遇到图片验证码,如果是简单的数字字母验证码,可以通过图片识别的方法识别验证码,再发送post请求模拟登陆。

验证码图片的爬取可以通过找到某验证码的url,通过python的requests模块get图片资源,这里不做过多介绍。

我们在本地尝试完成验证码图片的识别。本地已经安装Anaconda3,使用Python3。其下均在Anaconda环境进行操作。

1.安装PIL模块和pytesseract模块

PIL是python的一个图像处理标准库,pytesseract是免费的ocr识别库。在Anaconda Prompt中安装两个模块。

pip install PIL
pip install pytesseract

2.安装识别引擎tesseract-ocr

tesseract-ocr是OCR文字识别引擎,需要在本机进行安装。

下载后傻瓜式安装即可,这里可以将tesseract.exe加入环境变量,如不加入,后面需要修改Anaconda安装目录D:\Anaconda3\Lib\site-packages\pytesseract\pytesseract.py中的tesseract_cmd路径。

tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'
3.图片识别
import pytesseract
from PIL import Image
import numpy as nppath='D:/vc_code.png'
imageObject = Image.open(path) # 传入保存的图片路径
print(imageObject)
imageObject = np.array(imageObject.convert('L'), 'f')  #图片灰度处理
result = pytesseract.image_to_string(imageObject)
print("验证码识别结果:", result)
4.中文识别

在’D:\Tesseract-OCR’路径下运行cmd,输入命令tesseract --list-langs查看支持的语言,未安装有chi_sim中文数据包,需要手动安装。下载解压后’D:\Tesseract-OCR\tessdata’目录下即可。
在这里插入图片描述
使用方法:

result = pytesseract.image_to_string(imageObject, lang='chi_sim')

这篇关于PIL + pytesseract 玩转验证码图片识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/996464

相关文章

JAVA读取MongoDB中的二进制图片并显示在页面上

1:Jsp页面: <td><img src="${ctx}/mongoImg/show"></td> 2:xml配置: <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001

在服务器上浏览图片

@StarSky 2018-10-26 15:09 字数 15971 阅读 28 https://www.zybuluo.com/StarSky/note/1294871 来源 2018-09-27 线上服务器安装 imgcat Tool   2018-09-27 线上服务器安装 imgcat 0. 准备文件:iterm2_shell_integration.bash1. 在有权限

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

Pycharm配置conda环境(解决新版本无法识别可执行文件问题)

引言: 很多小伙伴在下载最新版本的pycharm或者更新到最新版本后为项目配置conda环境的时候,发现文件夹目录中无法显示可执行文件(一般为python.exe),以下就是本人遇到该问题后试验和解决该问题的一些方法和思路。 一般遇到该问题的人群有两种,一种是刚入门对pycharm进行conda环境配置的小白(例如我),不熟悉相关环境配置的操作和过程,还有一种是入坑pycharm有段时间的老手

神经网络第四篇:推理处理之手写数字识别

到目前为止,我们已经介绍完了神经网络的基本结构,现在用一个图像识别示例对前面的知识作整体的总结。本专题知识点如下: MNIST数据集图像数据转图像神经网络的推理处理批处理  MNIST数据集          mnist数据图像 MNIST数据集由0到9的数字图像构成。像素取值在0到255之间。每个图像数据都相应地标有“7”、“2”、“1”等数字标签。MNIST数据集中,

el-upload 上传图片及回显照片和预览图片,文件流和http线上链接格式操作

<div v-for="(info, index) in zsjzqwhxqList.helicopterTourInfoList" :key="info.id" >编辑上传图片// oss返回线上地址http链接格式:<el-form-itemlabel="巡视结果照片":label-width="formLabelWidth"><el-upload:action="'http:

vscode python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

在vscode中控制台运行python文件出现:无法将"pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 使用vscode开发python,需要安装python开发扩展: 本文已经安装,我们需要找的是python安装所在目录,本文实际路径如下: 如果在本文路径中没有此目录,请尝试在C盘中搜索 python,搜索到相关python目录后,点击Python 3.9进入目录,

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

关于文章“python+百度语音识别+星火大模型+讯飞语音合成的语音助手”报错的修改

前言 关于我的文章:python+百度语音识别+星火大模型+讯飞语音合成的语音助手,运行不起来的问题 文章地址: https://blog.csdn.net/Phillip_xian/article/details/138195725?spm=1001.2014.3001.5501 1.报错问题 如果运行中报错,且报错位置在Xufi_Voice.py文件中的pcm_2_wav,如下图所示