模拟登录古诗文网(模拟登录,验证码识别)

2023-12-12 20:30

本文主要是介绍模拟登录古诗文网(模拟登录,验证码识别),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 代码第一次编写
  1. url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
    page_text = requests.get(url=url, headers=headers).content# 实例化及获取验证码图片
    tree = etree.HTML(page_text)
    src = 'https://so.gushiwen.cn/' + tree.xpath('//*[@id="imgCode"]/@src')[0]
    img_date = requests.get(url=src, headers=headers).content
    # 将验证码图片保存到本地
    with open('./card.jpg', 'wb')as fp:fp.write(img_date)
    time.sleep(1)
    text = pytesseract.image_to_string(Image.open('card.jpg'))
    print(text)# 模拟登录
    load_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'
    load_data = {'from': 'http://so.gushiwen.cn/user/ collect.aspx','email': '','pwd': '','code': text,'denglu': '登录'
    }
    login_text=requests.post(url=load_url, data=load_data,headers=headers).text
    with open('login.html','w',encoding='utf-8') as fp:fp.write(login_text)

古诗文网有两个问题:1.__VIEWSTATE参数是动态的;2.登录时状态码是302,发生了重定位。

暂时先学到这里,之后有其他的办法再作以修改

代码编写于2023.8.4 代码正常运行 提示验证码错误

  • 代码第二次编写
import requests
from lxml import etree
import pytesseract
import ddddocrif __name__ == '__main__':session = requests.Session()# 古诗文网登录页面urlget_url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'# 模拟登录请求头get_header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0'}# 请求url获取textpage_text = requests.get(url=get_url, headers=get_header).text#  解析HTMLtree = etree.HTML(page_text)#  定位src属性并拼接获得最终验证码urlsrc_url = 'https://so.gushiwen.cn' + tree.xpath('//*[@id="imgCode"]/@src')[0]# 请求验证码url获取二进制src_data = session.get(url=src_url, headers=get_header).content# 将获取的的二进制数据写入到当前目录下获得code.jpgwith open('./code.jpg', 'wb') as fp:fp.write(src_data)#pytesseract识别验证码    # code = pytesseract.image_to_string('code.jpg')# print(code)#ddddocr识别验证码ocr = ddddocr.DdddOcr()text2 = ocr.classification(src_data)print('ddddorc识别出的验证码为:', text2)# 模拟登录__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]__VIEWSTATEGENERATOR = tree.xpath('//*[@id="__VIEWSTATEGENERATOR"]/@value')[0]login_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'data = {'__VIEWSTATE': __VIEWSTATE,'__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,'from': 'http://so.gushiwen.cn/user/collect.aspx','email': '','pwd': '','code': text2,'denglu': '登录',}gushiwen = session.post(url=login_url, headers=get_header, data=data).textwith open('./gushiwen.html', 'w', encoding='utf-8') as fp_h:fp_h.write(gushiwen)

pytesseract识别的准确率以及训练的成熟度不是很高 更换ddddocr之后就好多了

就是跳转到的HTML页面不好看

代码修改于2023.8.15 代码正常运行 运行结果大致正常

  • 代码第三次编写

以下代码承接模拟登录

# 收藏页面的标头
cookie = '收藏页面的cookie'
headers = {'Cookie': cookie,'Referer': 'https://so.gushiwen.cn/user/collect.aspx','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.62'}
# 主页的url
main_url = 'https://www.gushiwen.cn/'
# 收藏页的url
collect_url = 'https://so.gushiwen.cn/user/collect.aspx?type=m&id=4752846&sort=t'
# 主页的响应数据
gushiwen = session.post(url=main_url, headers=get_header, data=data).text
# #查看session内携带的cookie
# cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)
# # 把cookies转化成字典。
# print("cookie:" + str(cookies_dict))
# 收藏页的相应数据
response = session.post(url=collect_url, headers=headers).text
with open('./gushiwen.html', 'w', encoding='utf-8') as fp_h:# 写入fp_h.write(response)

 打印session,发现携带的cookie内容与网页内的cookie不一致,于是手动使用cookie,此处在请求中额外携带cookie

代码修改于2023.8.31 代码正常运行 运行结果大致正常 

这篇关于模拟登录古诗文网(模拟登录,验证码识别)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/485833

相关文章

springboot security验证码的登录实例

《springbootsecurity验证码的登录实例》:本文主要介绍springbootsecurity验证码的登录实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录前言代码示例引入依赖定义验证码生成器定义获取验证码及认证接口测试获取验证码登录总结前言在spring

Python实现自动化接收与处理手机验证码

《Python实现自动化接收与处理手机验证码》在移动互联网时代,短信验证码已成为身份验证、账号注册等环节的重要安全手段,本文将介绍如何利用Python实现验证码的自动接收,识别与转发,需要的可以参考下... 目录引言一、准备工作1.1 硬件与软件需求1.2 环境配置二、核心功能实现2.1 短信监听与获取2.

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

Flask 验证码自动生成的实现示例

《Flask验证码自动生成的实现示例》本文主要介绍了Flask验证码自动生成的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习... 目录生成图片以及结果处理验证码蓝图html页面展示想必验证码大家都有所了解,但是可以自己定义图片验证码

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

CSS模拟 html 的 title 属性(鼠标悬浮显示提示文字效果)

《CSS模拟html的title属性(鼠标悬浮显示提示文字效果)》:本文主要介绍了如何使用CSS模拟HTML的title属性,通过鼠标悬浮显示提示文字效果,通过设置`.tipBox`和`.tipBox.tipContent`的样式,实现了提示内容的隐藏和显示,详细内容请阅读本文,希望能对你有所帮助... 效

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Oracle登录时忘记用户名或密码该如何解决

《Oracle登录时忘记用户名或密码该如何解决》:本文主要介绍如何在Oracle12c中忘记用户名和密码时找回或重置用户账户信息,文中通过代码介绍的非常详细,对同样遇到这个问题的同学具有一定的参... 目录一、忘记账户:二、忘记密码:三、详细情况情况 1:1.1. 登录到数据库1.2. 查看当前用户信息1.