selenium+opencv解决猫眼电影排行榜带缺口滑动验证码问题

本文主要是介绍selenium+opencv解决猫眼电影排行榜带缺口滑动验证码问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

        相信初学爬虫大家拿来练手的会有猫眼、软科大学排行榜等,但可能正因为此,太多人拿他们来做练习了,他们也相应的设置了反爬虫机制。

        猫眼在直接登陆: 猫眼验证中心 时会弹出滑动验证码,验证了才能进入到排行榜页面,如下图所示,对于刚学爬虫时的我造成了很大的困扰,现在来对此进行解决。

        获取原图的相关思路在右侧目录中,可供参考,点击后可找到相关内容:

项目分析

        这种滑动验证码的类型大致可分为两种:1.源码中能找到完整背景图的;2.没有提供完整背景图的。对于第一种情况,一般的处理方式是分别找出有缺口的图片和完整的背景图,然后进行像素点对比,找出缺口位置,获取缺口的偏移量最后确定滑块的移动轨迹。而第二种情况,则是获取带缺口的背景图片和滑块的图片,然后通过opencv库对图片进行识别,缺口匹配,得出最优的匹配结果,锁定滑块的移动轨迹,这种解决方式同样可以解决第一种类型的验证码。

        这里属于第二种情况,那么我们就基于此具体分析下解决步骤:

初始化信息
定位获取背景图元素
定位获取缺块元素
定位获取滑块元素
获取带缺口背景图和缺块图片
识别缺口位置
设计移动速度和移动轨迹
拖动滑块

项目实现

1)初始化信息

    def __init__(self):# 获取链接self.url = 'https://maoyan.com/board/4?offset=100'# 获取浏览器驱动self.browser = webdriver.Chrome()# 设置显式等待self.wait = WebDriverWait(self.browser, 10)

2)定位获取所需元素

        在我定位验证码滑块元素的时候一直显示我定位语句错误,多次调试定位方法及路径未果,后来发现这里验证码的部分是用iframe写入的,具体对此问题的解决办法,可以观看我的另一篇博客:iframe中碰到的问题及解决方法_Yy_Rose的博客-CSDN博客

         所以在定位元素前我们需要先切换到元素所在的frame中:

iframe = self.wait.until(EC.presence_of_all_elements_located((By.TAG_NAME, 'iframe')))
self.wait.until(EC.frame_to_be_available_and_switch_to_it(iframe[1]))

        定位获取带缺口的背景图元素:

def bg_img_src(self):bg_img_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@class="tc-bg"]/img')))# 获取src属性内容bg_img_src = bg_img_element.get_attribute('src')return bg_img_src

        定位缺块元素:

def jpp_img_src(self):target_img_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@class="tc-jpp"]/img')))target_img_src = target_img_element.get_attribute('src')return target_img_src

        定位滑块元素:

def slider_element(self):time.sleep(2)slider = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@class="tc-drag-thumb"]')))return slider

 3)获取带缺口背景图片和滑块图片

def get_img(self):# 获取图片bg_src = self.bg_img_src()jpp_src = self.jpp_img_src()response1 = requests.get(bg_src)# 存储Byte类型的图片image1 = Image.open(BytesIO(response1.content))# 图片像素 680*390image1.save('bg_img.png')response2 = requests.get(jpp_src)image2 = Image.open(BytesIO(response2.content))# 图片像素 136*136image2.save('jpp_img.png')return image1, image2

获取到的图片示例:

bg_img.png

 

 jpp_img.png

 获取原图    

        我之前在测试获取图片链接的时候发现:

https://t.captcha.qq.com/hycdn?index=1&image=937159045618524928?aid=2017906796&sess=s0_QNEh1POoUl_dl78OfZqI8viz1ySW3lXnvGYJiBhoyIug8jmmzlx6u7rxisrmwscXjUZTPlsJgvXdYTyOXN4uY4pi4h_G5gHbBiOqFaQXWCnSK-v0RWLusaq9WCotUPXwls0n4klirO6y62DpY6NoIPLX6yEn4JEeCZ-ZA_UHrTeXojyyr06SHXn32TiNz1ci6xefUfsaJEleOwSwC1NMDlIyUhCHsbM5zrIV52jzoI6gPg9G4gj3d0xDXN9MHLUaC3qxPBIyIQ6DMvBPr75rSjEInC7zQ0oksYMlq6HrtRuZQ15p7x0cQ**&sid=6873095789103194112&img_index=1&subsid=3
**&sid=6873095789103194112&img_index=1&subsid=3

        这个之前的链接点开就能获取完整的背景图

         所以我进行了以下的尝试:

bc_element = browser.find_element(By.XPATH, '//*[@class="tc-bg"]/img').get_attribute('src').split('**')
img_src = bc_element[0]
print(img_src)

        获取到了只有前面那段的链接,经过多次测试,虽然后面id是会变动的,但仍很大概率都是与验证码相匹配的背景完整图,这里只是提供另一种做法找原图的思路。

4)识别缺口位置

def get_gap(self, gap_img):# 读取图片bg_img = cv2.imread('bg_img.png')tp_img = cv2.imread('jpp_img.png')# 图片边缘检测,最小100,最大200bg_edge = cv2.Canny(bg_img, 100, 200)tp_edge = cv2.Canny(tp_img, 100, 200)# 转换图片格式# 灰度图片转为RGB彩色图片bg_pic = cv2.cvtColor(bg_edge, cv2.COLOR_GRAY2RGB)tp_pic = cv2.cvtColor(tp_edge, cv2.COLOR_GRAY2RGB)# 缺口匹配res = cv2.matchTemplate(bg_pic, tp_pic, cv2.TM_CCOEFF_NORMED)# 寻找最优匹配min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)  # 绘制方框# img.shape[:2] 获取图片的长、宽height, width = tp_pic.shape[:2]tl = max_loc  # 左上角点的坐标# 绘制矩形# cv2.rectangle(img, (x1, y1), (x2, y2), RGB颜色值, 边框宽度--->若为负则填充整个矩形)cv2.rectangle(bg_img, tl, (tl[0] + width - 15, tl[1] + height - 15),(0, 0, 255), 2)# 保存在本地  cv2.imwrite(gap_img, bg_img)  # 以下三行语句是使图片窗口可视化# cv2.imshow('Show', bg_img)# cv2.waitKey(0)# cv2.destroyAllWindows()# 返回缺口的X坐标return tl[0]

相关知识:opencv cv2.rectangle 参数含义_Gaowang_1的博客-CSDN博客_cv2.rectangle

识别出的缺口位置:

5)获取运动轨迹

def get_track(self, distance):# 移动轨迹track = []# 当前位移current = 0# 减速阈值mid = distance * 4 / 5# 计算间隔t = 0.2# 初速度v = 0while current < distance:if current < mid:# 加速度为正5,可以选择调快点a = 5else:# 加速度为负3a = -3# 初速度v0v0 = v# 当前速度v = v0 + atv = v0 + a * t# 移动距离x = v0t + 1/2 * a * t^2move = v0 * t + 1 / 2 * a * t * t# 当前位移current += move# 加入轨迹track.append(round(move))return track

6)移动滑块

def move_to_gap(self, slider, track):# click_and_hold()按住底部滑块ActionChains(self.browser).click_and_hold(slider).perform()# 沿x轴方向移动for x in track:ActionChains(self.browser).move_by_offset(xoffset=x,yoffset=0).perform()time.sleep(0.5)# release()松开鼠标ActionChains(self.browser).release().perform()

源码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
from PIL import Image
import cv2
from selenium.webdriver import ActionChains
import requests
from io import BytesIOclass MaoYanCode(object):# 初始化def __init__(self):self.url = 'https://maoyan.com/board/4?offset=100'self.browser = webdriver.Chrome()self.wait = WebDriverWait(self.browser, 10)def open(self):# 打开网页self.browser.get(self.url)# 定位背景图def bg_img_src(self):bg_img_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@class="tc-bg"]/img')))bg_img_src = bg_img_element.get_attribute('src')return bg_img_src# 定位缺块def jpp_img_src(self):target_img_element = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@class="tc-jpp"]/img')))target_img_src = target_img_element.get_attribute('src')return target_img_src# 获取背景和缺块图片def get_img(self):bg_src = self.bg_img_src()jpp_src = self.jpp_img_src()response1 = requests.get(bg_src)image1 = Image.open(BytesIO(response1.content))image1.save('bg_img.png')response2 = requests.get(jpp_src)image2 = Image.open(BytesIO(response2.content))image2.save('jpp_img.png')return image1, image2# 定位滑块def slider_element(self):time.sleep(2)slider = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@class="tc-drag-thumb"]')))return slider# 识别缺口def get_gap(self, gap_img):bg_img = cv2.imread('bg_img.png')tp_img = cv2.imread('jpp_img.png')# 识别图片边缘bg_edge = cv2.Canny(bg_img, 100, 200)tp_edge = cv2.Canny(tp_img, 100, 200)# 转换图片格式# 灰度图片转为RGB彩色图片bg_pic = cv2.cvtColor(bg_edge, cv2.COLOR_GRAY2RGB)tp_pic = cv2.cvtColor(tp_edge, cv2.COLOR_GRAY2RGB)# 缺口匹配res = cv2.matchTemplate(bg_pic, tp_pic, cv2.TM_CCOEFF_NORMED)min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)  # 寻找最优匹配# 绘制方框# img.shape[:2] 获取图片的长、宽height, width = tp_pic.shape[:2]tl = max_loc  # 左上角点的坐标# cv2.rectangle(img, (x1, y1), (x2, y2), RGB颜色值, 边框宽度--->若为负则填充整个矩形)cv2.rectangle(bg_img, tl, (tl[0] + width - 15, tl[1] + height - 15),(0, 0, 255), 2)  # 绘制矩形cv2.imwrite(gap_img, bg_img)  # 保存在本地# cv2.imshow('Show', bg_img)# cv2.waitKey(0)# cv2.destroyAllWindows()# 返回缺口的X坐标return tl[0]# 构造移动轨迹def get_track(self, distance):# 移动轨迹track = []# 当前位移current = 0# 减速阈值mid = distance * 4 / 5# 计算间隔t = 0.2# 初速度v = 0while current < distance:if current < mid:# 加速度为正5a = 5else:# 加速度为负3a = -3# 初速度v0v0 = v# 当前速度v = v0 + atv = v0 + a * t# 移动距离x = v0t + 1/2 * a * t^2move = v0 * t + 1 / 2 * a * t * t# 当前位移current += move# 加入轨迹track.append(round(move))return track# 移动滑块def move_to_gap(self, slider, track):# click_and_hold()按住底部滑块ActionChains(self.browser).click_and_hold(slider).perform()for x in track:ActionChains(self.browser).move_by_offset(xoffset=x,yoffset=0).perform()time.sleep(0.5)# release()松开鼠标ActionChains(self.browser).release().perform()def login(self):self.open()time.sleep(2)# 网速原因可能导致网页加载不完全,致使iframe报错iframe = self.wait.until(EC.presence_of_all_elements_located((By.TAG_NAME, 'iframe')))self.wait.until(EC.frame_to_be_available_and_switch_to_it(iframe[1]))self.get_img()slider = self.slider_element()slider.click()gap = self.get_gap('result.png')# 页面为360*360,图片为680*390,更改比例,减去初始位移gap_end = int((gap - 40) / 2)# 获取缺口print('缺口位置', gap_end)# 减去缺块白边gap_end -= 10# 获取移动轨迹track = self.get_track(gap_end)print('滑动轨迹', track)# 拖动滑块self.move_to_gap(slider, track)if __name__ == '__main__':crack = MaoYanCode()crack.login()

        注意:图片保存下来为原图大小,要用代码更改为与页面对应适合的比例,不然位移量会错误。

gap_end = int((gap - 30) / 2)

        如果导入cv2报错,可参考:cv2导入失败原因及安装opencv后仍报错的解决方式_Yy_Rose的博客-CSDN博客

        如果需要登录验证的,则多定义一个函数用于键入数据,然后点击获取验证码后模拟点击登录就行了。selenium+crop+chaojiying之登录超级鹰_Yy_Rose的博客-CSDN博客 中有相关操作。

        友情提示:如果网络较差,可能导致页面加载不完全,以至于元素读取不到,可以选择重试或采取异常捕捉后延时等待的方式进行处理,同时可以设置代理ip以免请求过多被拒绝服务,这里提供几个https的免费代理ip:

111.201.210.192:7890
8.218.91.61:59394
114.238.91.235:30001

        代理ip网站:免费代理ip网站总结_成长的烧年-CSDN博客_免费代理ip网站

        xpath相关Chrome浏览器插件安装及selenium中如何配置使用插件:

xpath-helper、chropath下载方式及selenium中如何配置使用插件_Yy_Rose的博客-CSDN博客

结言

        以上并不一定是最优解,后续将会进行更新,欢迎大家指正交流~

—————————————————更新于2021.12.08——————————————————

这篇关于selenium+opencv解决猫眼电影排行榜带缺口滑动验证码问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/812191

相关文章

关于@MapperScan和@ComponentScan的使用问题

《关于@MapperScan和@ComponentScan的使用问题》文章介绍了在使用`@MapperScan`和`@ComponentScan`时可能会遇到的包扫描冲突问题,并提供了解决方法,同时,... 目录@MapperScan和@ComponentScan的使用问题报错如下原因解决办法课外拓展总结@

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

Mysql DATETIME 毫秒坑的解决

《MysqlDATETIME毫秒坑的解决》本文主要介绍了MysqlDATETIME毫秒坑的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 今天写代码突发一个诡异的 bug,代码逻辑大概如下。1. 新增退款单记录boolean save = s

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言