Python3爬虫实战【点触验证码】 — 模拟登陆bilibili

2023-12-01 18:30

本文主要是介绍Python3爬虫实战【点触验证码】 — 模拟登陆bilibili,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python3爬虫实战【点触验证码】 — 模拟登陆bilibili

爬虫时间:2020-08-30 请求链接:https://passport.bilibili.com/login 实现目标:模拟登陆哔哩哔哩
涉及知识:点触验证码的攻克、自动化测试工具 Selenium 的使用,超级鹰打码平台的使用
完整代码:https://github.com/dateolive/python-/tree/master/bilibili
学习过程中的爬虫GitHub库:https://github.com/dateolive/python-

爬虫思路如下:

  • 利用自动化爬虫工具 Selenium 模拟点击输入等操作来进行登录
  • 分析页面,获取点触验证码的点触图片,通过将图片发送给超级鹰打码平台识别后获取坐标信息
  • 根据超级鹰返回的数据,模拟坐标的点选,即可实现登录

一.准备工作

在开始之前,需要先注册一个超级鹰账号并申请一个软件ID,注册页面链接为:https://www.chaojiying.com/user/reg/,注册完成后需要在后台添加一个软件ID,进行充值获得积分,一般充一块钱就可以了。

二.爬虫构建

1.首先我可以到官方网站下载对应的 Python API,链接为:https://www.chaojiying.com/api-14.html ,我这里使用了崔庆才大大修改后的超级鹰api

代码如下:

import requests
from hashlib import md5class Chaojiying(object):def __init__(self, username, password, soft_id):self.username = usernameself.password = md5(password.encode('utf-8')).hexdigest()self.soft_id = soft_idself.base_params = {'user': self.username,'pass2': self.password,'softid': self.soft_id,}self.headers = {'Connection': 'Keep-Alive','User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',}def post_pic(self, im, codetype):"""im: 图片字节codetype: 题目类型 参考 http://www.chaojiying.com/price.html"""params = {'codetype': codetype,}params.update(self.base_params)files = {'userfile': ('ccc.jpg', im)}r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,headers=self.headers)return r.json()def report_error(self, im_id):"""im_id:报错题目的图片ID"""params = {'id': im_id,}params.update(self.base_params)r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)return r.json()

2.初始化函数

def __init__(self):self.url = 'https://passport.bilibili.com/login'self.browser = webdriver.Chrome()self.browser.maximize_window()self.wait = WebDriverWait(self.browser, 20)self.username = USERNAMEself.password = PASSWORD

这里定义了发起请求的url、用户名、密码等全局变量,实例化 Chrome 浏览器、设置浏览器分辨率最大化、用户名、密码、同时也设置等待超时

3.登录函数

def open(self):"""打开网页输入用户名密码:return: None"""self.browser.get(self.url)user = self.wait.until(EC.presence_of_element_located((By.ID, 'login-username')))password = self.wait.until(EC.presence_of_element_located((By.ID, 'login-passwd')))user.send_keys(self.username)password.send_keys(self.password)login_btn = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'a.btn.btn-login')))# 随机暂停几秒time.sleep(random.random() * 3)# 点击登陆按钮login_btn.click()

等待账号输入框和密码输入框对应的 ID 节点加载出来,然后获取对应节点,其中账号输入框 id=“login-username”,密码输框
id=“login-passwd”,通过调用 send_keys() 方法输入账号和密码,接着获取登录按钮 class=“btn
btn-login”,设置暂停时间,最后调用 click() 方法实现登录按钮的点击。

4.点触验证码的处理

def pick_code(self):time.sleep(3)pick_img_label = self.browser.find_element_by_css_selector('img.geetest_item_img')  # 获取点触图片标签src = pick_img_label.get_attribute('src')  # 获取点触图片链接img_content = requests.get(src).content  # 获取图片二进制内容f = BytesIO()f.write(img_content)img0 = Image.open(f)  # 将图片以文件的形式打开,主要是为了获取图片的大小scale = [pick_img_label.size['width'] / img0.size[0],pick_img_label.size['height'] / img0.size[1]]  # 获取图片与浏览器该标签大小的比例cjy = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)result = cjy.post_pic(img_content, '9005')  # 发送图片并获取结果if result['err_no'] == 0:  # 对结果进行分析position = result['pic_str'].split('|')  # position = ['110,234','145,247','25,185']position = [[int(j) for j in i.split(',')] for i in position]  # position = [[110,234],[145,247],[25,185]]for items in position:  # 模拟点击ActionChains(self.browser).move_to_element_with_offset(pick_img_label, items[0] * scale[0],items[1] * scale[1]).click().perform()time.sleep(1)time.sleep(2)# 点击登录certern_btn = self.browser.find_element_by_css_selector('div.geetest_commit_tip')certern_btn.click()return cjy, result

通过css选择器,找到点触图片的标签,获取图标的src链接,对图片处理发送给超级鹰后台并获取结果,对结果进行分析,模拟坐标的点选,即可实现登录。

三.爬虫完整代码

import random
import time
from io import BytesIO
import requests
from PIL import Image
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from chaojiying import ChaojiyingUSERNAME = 'b站账号'
PASSWORD = '密码'CHAOJIYING_USERNAME = '超级鹰账号'
CHAOJIYING_PASSWORD = '密码'
CHAOJIYING_SOFT_ID = 907581
CHAOJIYING_KIND = 9004class CrackTouClick():def __init__(self):self.url = 'https://passport.bilibili.com/login'self.browser = webdriver.Chrome()self.browser.maximize_window()self.wait = WebDriverWait(self.browser, 20)self.username = USERNAMEself.password = PASSWORDdef open(self):"""打开网页输入用户名密码:return: None"""self.browser.get(self.url)user = self.wait.until(EC.presence_of_element_located((By.ID, 'login-username')))password = self.wait.until(EC.presence_of_element_located((By.ID, 'login-passwd')))user.send_keys(self.username)password.send_keys(self.password)login_btn = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'a.btn.btn-login')))# 随机暂停几秒time.sleep(random.random() * 3)# 点击登陆按钮login_btn.click()def pick_code(self):time.sleep(3)pick_img_label = self.browser.find_element_by_css_selector('img.geetest_item_img')  # 获取点触图片标签src = pick_img_label.get_attribute('src')  # 获取点触图片链接img_content = requests.get(src).content  # 获取图片二进制内容f = BytesIO()f.write(img_content)img0 = Image.open(f)  # 将图片以文件的形式打开,主要是为了获取图片的大小scale = [pick_img_label.size['width'] / img0.size[0],pick_img_label.size['height'] / img0.size[1]]  # 获取图片与浏览器该标签大小的比例cjy = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)result = cjy.post_pic(img_content, '9005')  # 发送图片并获取结果if result['err_no'] == 0:  # 对结果进行分析position = result['pic_str'].split('|')  # position = ['110,234','145,247','25,185']position = [[int(j) for j in i.split(',')] for i in position]  # position = [[110,234],[145,247],[25,185]]for items in position:  # 模拟点击ActionChains(self.browser).move_to_element_with_offset(pick_img_label, items[0] * scale[0],items[1] * scale[1]).click().perform()time.sleep(1)time.sleep(2)# 点击登录certern_btn = self.browser.find_element_by_css_selector('div.geetest_commit_tip')certern_btn.click()return cjy, resultdef crack(self):"""破解入口:return: None"""self.open()self.pick_code()
if __name__ == '__main__':crack = CrackTouClick()crack.crack()

四.GIF登录图
在这里插入图片描述

这篇关于Python3爬虫实战【点触验证码】 — 模拟登陆bilibili的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/442221

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

usaco 1.2 Transformations(模拟)

我的做法就是一个一个情况枚举出来 注意计算公式: ( 变换后的矩阵记为C) 顺时针旋转90°:C[i] [j]=A[n-j-1] [i] (旋转180°和270° 可以多转几个九十度来推) 对称:C[i] [n-j-1]=A[i] [j] 代码有点长 。。。 /*ID: who jayLANG: C++TASK: transform*/#include<

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

hdu4431麻将模拟

给13张牌。问增加哪些牌可以胡牌。 胡牌有以下几种情况: 1、一个对子 + 4组 3个相同的牌或者顺子。 2、7个不同的对子。 3、13幺 贪心的思想: 对于某张牌>=3个,先减去3个相同,再组合顺子。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOExcepti

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟)

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟) 题目描述 给定一个链表,链表中的每个节点代表一个整数。链表中的整数由 0 分隔开,表示不同的区间。链表的开始和结束节点的值都为 0。任务是将每两个相邻的 0 之间的所有节点合并成一个节点,新节点的值为原区间内所有节点值的和。合并后,需要移除所有的 0,并返回修改后的链表头节点。 思路分析 初始化:创建一个虚拟头节点

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

Spring 验证码(kaptcha)

首先引入需要的jar包: <dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactId><version>0.0.9</version></dependency> 配置验证码相关设置: <bean id="captchaProducer" class="com.