最新爬虫(2019.07)淘宝页面登陆滑块验证 selenium + chromedriver 爬取淘宝信息

本文主要是介绍最新爬虫(2019.07)淘宝页面登陆滑块验证 selenium + chromedriver 爬取淘宝信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说在前面的话

你或许找了很久的方案来到了这里,当你看到本文章时,我默认你已经发现,淘宝的反扒措施是  webdriver和chromedriver的识别。所以我不会贴过多图片,不讲分析思路,直接给你鱼,文章最后直接上全部代码demo。

若帮助到你了,转发请注明出处,若阿里巴巴的朋友发现,请联系我删帖,谢谢。

背景 

简单说下背景,最近某厂为了818,双11,12等需要分析友商数据,做竞价比较。所以就让研究抓取淘宝商品信息,百度资料博客一大堆,屁用都没有,淘宝在7月左右就必须要登陆才能进入商品页了,所以登陆淘宝是爬取数据的第一道门槛,然后就看到了滑块验证,selenium + chromedriver 模拟用户登陆。

 然后

想法很简单,现实很残酷,淘宝又不都是傻子。滑块被检验出来为 webdriver 驱动,或许你已经看过用fiddler工具 或者 mitmproxy 代理设置response,拦截index.js  118.js  115.js修改js,加上webdriver 的参数为false.目的就是为了改window.navigator.webdriver属性。再后来支付宝登陆??微博登陆???

思路ok,方法屁用。

两个问题入手

1,跳过检测特有标识$cdc_lasutopfhvcZLmcfl

2,跳过检验window.navigator.webdriver  为false

破解(两步缺一不可)

1:改chromedriver的全量标识。

参考地址:https://stackoverflow.com/questions/33225947/can-a-website-detect-when-you-are-using-selenium-with-chromedriver

mac 和 linux 很好改,自己看,直接略过,我就来个别人都避重就轻的不说的windows的修改方法。

现根据自己的谷歌浏览器版本下载对应驱动:selenium 谷歌驱动下载,放到python 的Script目录下。

先把exe文件.bak 备份一波

下载一个nodepadd++ 编辑器,右击打开 chromedriver.exe ,一群乱码,莫慌,莫随意打空格或者其他操作,可能会导致文件损坏。打开it,如下图(本文章计划唯一的一张图),ctrl + F, 输入 $cdc ,好了,就把下面那 红色框住的那一坨改了,就是它,淘宝就是检测的它。fuck.....

the most 恶心的地方来了,你以为改过了就完事了???????fuck,下面划横线,说重点的事情三遍。

我的改成自己的名字了,别人debug的时候,能装个逼,$cdc_tjtjtjtjtjtjtjtabjtjtj_  

修改后的字符长度要和原来的一致!

修改后的字符长度要和原来的一致!

修改后的字符长度要和原来的一致!

改成  $cdc_fuck_   $cdc_fuckfuck_ 都不行。好好数数多少位。

 

2:window.navigator.webdriver  为false 

自己本地玩,弄个mitmproxy,拦截下,修改js没问题,代码如下:

from mitmproxy import ctx# 所有的请求都会经过requestdef request(flow):info = ctx.log.info# info(flow.request.url)# info(str(flow.request.headers))# info(str(flow.request.cookies))# info(flow.request.host)# info(flow.request.method)# info(str(flow.request.port))# info(flow.request.scheme)# print('=' * 30)# print(flow.request.method, ":", flow.request.url)# print('=' * 30)def response(flow):info = ctx.log.infoif 'um.js' in flow.request.url or '118.js' in flow.request.url:# 屏蔽selenium检测flow.response.text = flow.response.text + \'Object.defineProperties(navigator,{webdriver:{get:() => false}}); '

然而并没有什么卵用,要是linux机器多,部上去跑也麻烦。直接一行代码搞定

option = webdriver.ChromeOptions()
#开发者模式的开关,设置一下,打开浏览器就不会识别为自动化测试工具了
option.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = webdriver.Chrome(chrome_options=option)

总结 (代码)

本来某厂不能写博客连外网,没办法,CSDN之类网站的找个问题,都他么原封不动的复制下来,没人管它对不对,心累。共享学习心得分享资源是好事,希望大家共同努力一起进步。

我只写了一个demo,有心的同学可以自己改成class类,增加元素加载情况判断等等。本文目的只为破解滑块验证。

最后扔个炸弹,若是新设备电脑,首次登陆进去之后,有一个可爱的人机交互验证,它的问题是“请选出你最近购买的商品”,哈哈哈,傻逼了吧。。 哈哈哈,爬虫之路任重而道远,各位珍重。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver import ActionChains
import timeoption = webdriver.ChromeOptions()
option.binary_location = r'E:\Chrome\Application\chrome.exe'
option.add_experimental_option('excludeSwitches', ['enable-automation'])# option.add_argument("--proxy-server=127.0.0.1:8080")
# 设置无头加载
# option.add_argument('--headless')
# 设置无图片模式
# prefs = {"profile.managed_default_content_settings.images": 2}
# option.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(chrome_options=option)
driver.maximize_window()
status = driver.get("https://login.taobao.com/member/login.jhtml")
print(status)
# pass
# 删除原来的cookie
driver.delete_all_cookies()
# cookie = "thw=cn; cna=yFJuFf/jBmkCAbRt3g+PNikw; v=0; t=ce6433b7d755f402b91d17670f77a2ef; sg=819; csg=d16db728; existShop=MTU2MTYwNzg5MQ%3D%3D; tracknick=%5Cu6843%5Cu6843520328; lgc=%5Cu6843%5Cu6843520328; dnk=%5Cu6843%5Cu6843520328; tg=0; mt=ci=9_1; uc1=cookie16=U%2BGCWk%2F74Mx5tgzv3dWpnhjPaQ%3D%3D&cookie21=VT5L2FSpdet1FS8C2gIFaQ%3D%3D&cookie15=UIHiLt3xD8xYTw%3D%3D&existShop=false&pas=0&cookie14=UoTaGduh3ZQTWQ%3D%3D&tag=8&lng=zh_CN; _nk_=%5Cu6843%5Cu6843520328; _tb_token_=3ab35ef7b6b31; isg=BNrad6CZU8E-BN6SQyYSGTTBK4A8o13CtG3R4uRTgm04V3qRzJuu9aClIyNLgtZ9; l=bBNeS67nv7dTPyOoBOCanurza77OSIRYYuPzaNbMi_5LE6T_Z8bOkYnakF96Vj5RsUYB4ATie6p9-etkZ"
# c = cookie.split(';')
# ck = {}
# for i in c:
#     key = i.split('=')[0].strip()
#     val = i.split('=')[1].strip()
#     ck.setdefault(key, val)
# 携带cookie打开
# driver.add_cookie(ck)# 设置显示等待
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.ID, 'J_Quick2Static')))
# 打开淘宝二维码
i = driver.find_element_by_id("J_Quick2Static")
i.click()
user = driver.find_element_by_id("TPL_username_1")
user.send_keys('用户名')
password = driver.find_element_by_id("TPL_password_1")password.send_keys('密码')
# 设置显示等待
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.ID, 'nc_1_n1z')))
bb = driver.find_element_by_id("nc_1_n1z")
# ActionChains(driver).click_and_hold(bb).perform()
# for x in range(258):
#     ActionChains(driver).drag_and_drop_by_offset(
#         xoffset=x, yoffset=0).perform()
#     time.sleep(0.02)
bar_element = driver.find_element_by_id('nc_1_n1z')
ActionChains(driver).drag_and_drop_by_offset(bar_element, 258, 0).perform()
time.sleep(0.5)
ActionChains(driver).release().perform()
# 点击提交按钮
butt = driver.find_element_by_id('J_SubmitStatic')
butt.click()driver.get("https://www.taobao.com")
# 设置显示等待
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'search-combobox-input-wrap')))
search = driver.find_element_by_class_name('search-combobox-input')
search.send_keys("苏宁易购")search_butt = driver.find_element_by_class_name('btn-search')
search_butt.click()
print(driver.page_source)

 

这篇关于最新爬虫(2019.07)淘宝页面登陆滑块验证 selenium + chromedriver 爬取淘宝信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/818448

相关文章

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

Python如何获取域名的SSL证书信息和到期时间

《Python如何获取域名的SSL证书信息和到期时间》在当今互联网时代,SSL证书的重要性不言而喻,它不仅为用户提供了安全的连接,还能提高网站的搜索引擎排名,那我们怎么才能通过Python获取域名的S... 目录了解SSL证书的基本概念使用python库来抓取SSL证书信息安装必要的库编写获取SSL证书信息

Android WebView无法加载H5页面的常见问题和解决方法

《AndroidWebView无法加载H5页面的常见问题和解决方法》AndroidWebView是一种视图组件,使得Android应用能够显示网页内容,它基于Chromium,具备现代浏览器的许多功... 目录1. WebView 简介2. 常见问题3. 网络权限设置4. 启用 JavaScript5. D

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase