反反爬虫(1) :破解图片/文字验证码(翻过这座山,让世界听到你的故事)

本文主要是介绍反反爬虫(1) :破解图片/文字验证码(翻过这座山,让世界听到你的故事),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 验证码
    • 字符验证码
      • OCR识别
        • 灰度处理
        • 二值化处理
        • OCR识别
      • 打码平台
  • 小结

验证码

全自动区分计算机和人类的公开图灵测试 (Completely Automated Public Turing test to tell Computers and Humans Apart),简称 CAPTCHA,俗称 验证码

由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,所以也被称为反向图灵测试。

验证码可以有效防止恶意注册,刷票,论坛“灌水” 等有损网站利益的行为。验证码的原理很简单:人类有主观意识,能够根据要求执行操作,而计算机却不能。

最初,验证码是一张带有字符的图片,用户只需要将图片中的字符输入到文本框中即可,但这种简单的验证码很快就被绕过了。于是人们向图片中加入了一些混淆的元素,如斜线,彩色斑点等。接着出现了一些基于用户操作的验证码,也就是行为验证码。常见的有滑动验证码,拼图验证码和文字点选验证码等。

字符验证码

字符验证码是指用数字,字母,汉字和标点符号等字符作为元素的图片验证码。字符验证码是常见的验证码类型。它将人类视觉和计算机视觉的差异作为区分用户身份的依据。

在这里插入图片描述

OCR识别

我们曾在前边的文章中使用 百度AI开放平台文字识别 成功地从图片中识别电话号码,那么是否可以用来识别验证码图片中的文字呢? 将网站中的验证码保存到本地,然后调用 百度OCR 进行识别:

在这里插入图片描述

相较于之前的电话号码来说,本次所面对的验证码是带有彩色背景斜线和噪点,而且图片中字符颜色和背景色并没有强烈反差,这些因素都会影响识别效果。

要想提高识别的成功率,我们必须对图片进行处理,例如降低斜线和噪点对文字的干扰,增强背景色与字符颜色的反差。

也就是说,我们需要对图片进行灰度处理(去掉彩色)和二值化处理(降低干扰,增强颜色反差)。

灰度处理
from PIL import Imageim = Image.open(r"C:\Users\Administrator\Desktop\code.png")
im = im.convert('L')
im.show()

在这里插入图片描述

这时候整张图片变成了灰色,但字符颜色与背景颜色并不明显,对识别没有明显帮助。接下来,我们对图片进行二值化处理,并尝试识别处理后的图片。

二值化处理

二值化处理其实就是根据 阈值 调整原图的像素值,将大于阈值的像素点颜色改为白色,小于阈值的像素点颜色改为黑色,这样就能够达到增强颜色反差的目的。

def handler(grays, threshold=170):"""二值化处理:param grays: 待处理的图片:param threshold: 默认阈值为 160, 可根据实际情况调整:return:"""table = []for i in range(256):if i < threshold:table.append(0)else:table.append(1)anti = grays.point(table, '1')return anti

彩色的验证码图片在经过灰度和二值化处理后变成了如下的样子

在这里插入图片描述

OCR识别

处理后的图片轮廓清晰,字符与背景颜色反差大。此时我们再次调用 百度OCR 对图片进行识别

在这里插入图片描述

本次识别的效果还是不错的,那么我们多获取一些验证码图片尝试一下

在这里插入图片描述

对于随机的 8张略微复杂的验证码,OCR 的效果就不忍直视了。在实际应用中,图片验证码的识别成功率达到 75% 才能够满足爬虫工程师的需求。面对这样的问题,我们是否还有其他的解决方法呢?

打码平台

打码平台的主要功能就是提供验证码识别,目前主流的打码平台都支持数字、汉字、英文字母、图片、座标、答题等各种形式的验证码的智能识别,机器与人工相配合,平均识别时间 1~3秒,有着非常高的识别率

本次我们以 超级鹰 打码平台为例,展示打码平台的使用!

在这里插入图片描述

  • 注册账号登录网站

  • 查看接口开发文档,在超级鹰的文档中,我们可以很容易找到 接口地址,请求方式,参数设置等信息

在这里插入图片描述

  • 编写代码

    import base64
    import requestsdef vaifyCode_API(path):# 图片处理with open(path, 'rb') as f:img_content = f.read()img = base64.b64encode(img_content)# 参数构造data = {'user': '账号','pass': '密码','softid': '软件ID','codetype': '1902',  # 验证码类型'file_base64': img,  # 图片base64字符串}url = 'http://upload.chaojiying.net/Upload/Processing.php'# 发起请求data = requests.post(url=url, data=data).json()# 返回识别结果return data.get('pic_str')result = vaifyCode_API('1.jpg')
    print(result)
    
  • 识别结果

在这里插入图片描述

小结

添加了干扰信息的字符验证码可以有效增加识别难度和错误率。除了斜线和噪点外,还可以使用字符扭曲,角度旋转和文字重叠等方法。

对于复杂验证码的识别,本文仅介绍了打码平台的使用,此外我们还可以借助深度学习来对验证码进行识别工作。

这篇关于反反爬虫(1) :破解图片/文字验证码(翻过这座山,让世界听到你的故事)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/394774

相关文章

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

Android 10.0 mtk平板camera2横屏预览旋转90度横屏拍照图片旋转90度功能实现

1.前言 在10.0的系统rom定制化开发中,在进行一些平板等默认横屏的设备开发的过程中,需要在进入camera2的 时候,默认预览图像也是需要横屏显示的,在上一篇已经实现了横屏预览功能,然后发现横屏预览后,拍照保存的图片 依然是竖屏的,所以说同样需要将图片也保存为横屏图标了,所以就需要看下mtk的camera2的相关横屏保存图片功能, 如何实现实现横屏保存图片功能 如图所示: 2.mtk

Spring 验证码(kaptcha)

首先引入需要的jar包: <dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactId><version>0.0.9</version></dependency> 配置验证码相关设置: <bean id="captchaProducer" class="com.

Spring MVC 图片上传

引入需要的包 <dependency><groupId>commons-logging</groupId><artifactId>commons-logging</artifactId><version>1.1</version></dependency><dependency><groupId>commons-io</groupId><artifactId>commons-

Prompt - 将图片的表格转换成Markdown

Prompt - 将图片的表格转换成Markdown 0. 引言1. 提示词2. 原始版本 0. 引言 最近尝试将图片中的表格转换成Markdown格式,需要不断条件和优化提示词。记录一下调整好的提示词,以后在继续优化迭代。 1. 提示词 英文版本: You are an AI assistant tasked with extracting the content of

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

研究人员在RSA大会上演示利用恶意JPEG图片入侵企业内网

安全研究人员Marcus Murray在正在旧金山举行的RSA大会上公布了一种利用恶意JPEG图片入侵企业网络内部Windows服务器的新方法。  攻击流程及漏洞分析 最近,安全专家兼渗透测试员Marcus Murray发现了一种利用恶意JPEG图片来攻击Windows服务器的新方法,利用该方法还可以在目标网络中进行特权提升。几天前,在旧金山举行的RSA大会上,该Marcus现场展示了攻击流程,