python 关于GMU官网验证码的识别(附详细过程)

2024-01-15 08:59

本文主要是介绍python 关于GMU官网验证码的识别(附详细过程),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、开发环境与所需的库

-开发环境: python 3.8
-库:PIL,matplotlib.pyplot,sklearn,opencv等
-编译器:pycharm

二、爬取需要识别图片

1.获得想要爬取验证码的网址
在这里插入图片描述(由此图片给出的信息,由此可以判断,想要的验证码的图片需要发起请求的网址)

2.爬取图片

url = "http://117.21.221.123/gnyxy/other/CheckCode.aspx"#需要发起请求的网址header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1;Win64;x64;rv:81.0) Gecko/20100101 Firefox/81.0","Cookie": "ASP.NET_SessionId=mzmcjd45dyhbow55al3w4xmm; rootPath=http://117.21.221.123/gnyxy","Referer": "http://117.21.221.123/gnyxy/"}#设置请求头response = requests.get(url=url, headers=header).content#获得响应内容with open(path, 'wb')as fp:fp.write(response)#将图片保存至指定路径下

这样就就能批量获得验证码了

三、验证码的加工与修饰

之前爬取的验证码有大量的干扰线与干扰点,并且验证码颜色较为复杂,所以需要对图片进行加工
在这里插入图片描述
(类似图片)

1.灰度化处理
实现代码:

lim = image.convert('L')pixdata = lim.load()#创建一个二维列表存放图片每个像素的RGB值

或者

im = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

2.二值化处理
实现代码:

 w, h = lim.size#此处lim指的是灰度处理后图片对象# 遍历所有像素,大于阈值的为黑色for y in range(h):for x in range(w):if pixdata[x, y] < threshold:#threshold指的是一定阈值pixdata[x, y] = 0#将像素改为黑色else:pixdata[x, y] = 255

(或者)

lim = lim.point(lambda x: 255 if x > 134 else 0)

因为只是进行简单灰度处理,所以导致图片还有大量的干扰点与干扰线,会导致出现下面图片类似的情况
在这里插入图片描述
3. 降噪
原理:
降噪当前已经有了较好的算法能处理此类问题--------洪水填充法 洪水填充法洪水填充法分为四邻域与八邻域算法。笔者在这里使用的是八邻域算法。

实现代码:

    for i in range(0, Z):pixdata[0, 0] = 255  # 将左顶点改为白色色块pixdata[(image.size[0] - 1, image.size[1] - 1)] = 255  # 将右脚点改为白色模块for x in range(1, image.size[0] - 1):for y in range(1, image.size[1] - 1):nearDots = 0L = pixdata[x, y]  # 获去该坐标的颜色RGB是否是1还是0# 用的是八领域算法if L == pixdata[x - 1, y - 1]:nearDots += 1if L == pixdata[x - 1, y]:nearDots += 1if L == pixdata[x - 1, y + 1]:nearDots += 1if L == pixdata[x, y - 1]:nearDots += 1if L == pixdata[x, y + 1]:nearDots += 1if L == pixdata[x + 1, y - 1]:nearDots += 1if L == pixdata[x + 1, y]:nearDots += 1if L == pixdata[x + 1, y + 1]:nearDots += 1if nearDots < N:  # 有四个相邻的点与该点的颜色是一样的pixdata[x, y] = 255  # 判断如果有的话,将其变为白点

效果图如下在这里插入图片描述
(图片处理好了,可是为了简化对象,所以我们需要将图片进行分割)

四、图片的分割

原理:通过再次加载图片,获取每一个像素点的颜色RGB是1还是0。通过起始寻找上下左右,是否有黑色的像素点。如果有则寻找该像素点的前后左右是否黑色像素点,以此类推,直至找不到黑色点,则为该字符的边界。

实现代码

def get_crop_imgs(im,num,path,pixdata):zoneWB = CFS(im,pixdata)# print(zoneWB)cutting_img(im,num,path,zoneWB)def CFS(im,pixdata):'''切割字符位置'''xmax = 0  # 上一区块结束黑点横坐标,这里是初始化zoneWB = []  # 各区块的X轴[起始,终点]列表for i in range(4):try:# print(xmax)x_fd,y_fd = detectFgPix(im,xmax,pixdata)# print(y_fd,x_fd)xmax,xmin=cfs(x_fd,y_fd,pixdata)# if(xmax>20):#     xmax //= 2zoneWB.append([xmin,xmax])except TypeError:return zoneWBreturn zoneWB
def detectFgPix(im,xmax,pixdata):'''搜索区块起点'''h = im.size[1]w = im.size[0]for x_fd in range(xmax+1,w):for y_fd in range(h):if pixdata[x_fd,y_fd] == 0:return x_fd,y_fddef cfs(x_fd,y_fd,pixdata):'''用队列和集合记录遍历过的像素坐标代替单纯递归以解决cfs访问过深问题'''# print('**********')xaxis=[]visited = set()q = Queue()q.put((x_fd, y_fd))visited.add((x_fd, y_fd))offsets=[(1, 0), (0, 1) ,(-1, 0), (0, -1)]#四邻域while not q.empty():x,y=q.get()for xoffset,yoffset in offsets:x_neighbor = x+xoffsety_neighbor = y+yoffsetif (x_neighbor,y_neighbor) in (visited):continue  # 已经访问过了else:visited.add((x_neighbor, y_neighbor))try:if pixdata[x_neighbor, y_neighbor] == 0:xaxis.append(x_neighbor)q.put((x_neighbor,y_neighbor))except IndexError:pass# print(xaxis)if (len(xaxis) == 0 ):xmax = x_fd + 1xmin = x_fdelse:xmax = max(xaxis)xmin = min(xaxis)#ymin,ymax=sort(yaxis)return xmax,xmindef cutting_img(img,num,path,zoneWB):img_arr = plt.imread(path)for i in range(4):image_child_name = str(num)+'_'+str(i)+'.jpg'image_path='D://idcodes/' + image_child_namex_min_postion = zoneWB[i][0] - 1x_max_postion = zoneWB[i][1] +1cropped = img_arr[0:22,x_min_postion:x_max_postion]#获取需要剪切图片的位置cv2.imwrite(image_path,cropped)# tuple_child = (x_min_postion,0,x_max_postion,22)#进行图片的切割,并保存到指定路径下# plt.savefig(image_path)# img = img.crop(tuple_child)# img.save(image_path)if os.path.exists(path):os.remove(path)else:print('未找到此文件')

在这里插入图片描述在这里插入图片描述
分割之后出现类似的图片表示成功了

五、模型的训练

我在这里运用的是knn算法(分类算法)对验证码的每个字符进行识别以及分类

易错点:因为图片大小不同,所以运用 cv2.imread获取的数据的shape是不同的,所以不能将不同大小的图片作为同一个训练集使用,因为上述分割算法,分出来的图片大小是不一的。所以knn算法是不行的吗?

解决方法
1.将所有的图片转化为统一大小

img_ls=["2","3","4","5","6","7","8","9","A","B","C","D","E","F","G","H","J","K","L","M","N","P","Q","R","S","T","U","W","X","Y","Z"]
for name in img_ls:data_width = []path = os.path.join(img_path, name)# print(path)img_names = os.listdir(path)for i in range(len(img_names)):path1 = os.path.join(path, img_names[i])img = Image.open(path1)type = "png"out = img.resize((13, 22), Image.ANTIALIAS)# # resize image with high-qualityos.remove(path1)out.save(path1, type)

2.分别获得数据的目标值和特征值

data_sum = []labels = []img_path = "D:\img_src"img_ls = os.listdir(img_path)for name in img_ls:path = os.path.join(img_path,name)# print(path)img_names =os.listdir(path)for i in range(len(img_names)):path1 = os.path.join(path,img_names[i])image = cv2.imread(path1)image = image.reshape(-1)#将数据转化为一维数组data_sum.append(image)#提供特征值labels.append(name)#提供目标值

3.将特征值和目标值数组化并分化成训练集和测试集:

 	y = LabelBinarizer().fit_transform(labels)#标签规范化x = np.array(data_sum,dtype=object)y = np.array(y)x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

4.训练模型:

 # 训练KNN分类器model = neighbors.KNeighborsClassifier()model.fit(x_train, y_train)

5.测试并保存模型

 dirs = 'D:/testModel'if not os.path.exists(dirs):os.makedirs(dirs)joblib.dump(model,dirs + '/LR.pkl')#测试结果打印pre_y_train = model.predict(x_train)pre_y_test = model.predict(x_test)class_name = [ 'class2', 'class3', 'class4', 'class5', 'class6', 'class7', 'class8', 'class9',         'classa','classb','classc','classd','classe','classf','classg','classh','classj','classk','classl','classm','classn','classp','classq', 'classr','classs','classt','classu','classw','classx','classy','classz']print(classification_report(y_train, pre_y_train, target_names=class_name))print(classification_report(y_test, pre_y_test, target_names=class_name))

6.结果截图

改进方法:可以利用网格搜索与交叉验证提高准确率

通过这几个步骤就能得到比较准确的模型了

这篇关于python 关于GMU官网验证码的识别(附详细过程)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/608349

相关文章

python logging模块详解及其日志定时清理方式

《pythonlogging模块详解及其日志定时清理方式》:本文主要介绍pythonlogging模块详解及其日志定时清理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录python logging模块及日志定时清理1.创建logger对象2.logging.basicCo

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

Python中局部变量和全局变量举例详解

《Python中局部变量和全局变量举例详解》:本文主要介绍如何通过一个简单的Python代码示例来解释命名空间和作用域的概念,它详细说明了内置名称、全局名称、局部名称以及它们之间的查找顺序,文中通... 目录引入例子拆解源码运行结果如下图代码解析 python3命名空间和作用域命名空间命名空间查找顺序命名空

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

Python中的魔术方法__new__详解

《Python中的魔术方法__new__详解》:本文主要介绍Python中的魔术方法__new__的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、核心意义与机制1.1 构造过程原理1.2 与 __init__ 对比二、核心功能解析2.1 核心能力2.2

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3