Scrapy 结合 senlenium 进行爬虫

2023-11-01 15:59

本文主要是介绍Scrapy 结合 senlenium 进行爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先我们要爬取一家银行数据
发现它的表单使用在这里插入图片描述
而不是一般使用的formdata
这时候我们要注意传过去的数据类型一定要是接送类型的

import requests
from fake_useragent import UserAgent
import jsonheaders = {"User-Agent": UserAgent().random,}
cookies = {"Cookie": "FSSBBIl1UgzbN7N80S=N0Wj0MeCgtf1VKML0c4enCZwAqnGt3Z__zAl.983feP0HDC6LfZXOT8UuBNo94Bz; UM_distinctid=16eedd9aad7427-05dc1c99f7b591-2393f61-1fa400-16eedd9aad82ec; FSSBBIl1UgzbN7N8004S=Zv2vcq030TBJh8G.LktooAVdeBOP16arklQBtLR28K_UlBRhWNXz4oC46Wdfj7Vh; BIGipServerpool_ruishu_gw_8004=35995402.17439.0000; BIGipServerpool_menghu=19218186.20480.0000; BIGipServerpool_lsywly_7004=52653342.23579.0000; BIGipServerpool_gw_8004=18431754.17439.0000; BIGipServerpool_menghu_new_80=!cvODfqURptZHDbnZDfWm7qhBrhR0JVrI7BBFhfflVb4NDP2DuublcyGL1fYn0ruyuPhlOpFi3HJU; BIGipServerpool_mh_8000=!89nLaRuOdkfqIFDZDfWm7qhBrhR0JcmZohVQvXVHxAwZ2yczLZATPofP9n3PS+Ld8+xauOs77ADc; CNZZDATA1258289861=1740492663-1575948154-%7C1576111692; BIGipServerpool_mh_8001=18443550.16671.0000; JSESSIONID=G3b3xby9agMcKKH9kBXahRvX4gCkGDPZlze9m8Clh1nXmX6R8xQQ!-364854237; FSSBBIl1UgzbN7N80T=3tV5g5fy8gPgWgo7KBicSEFTb55gwHNWrl9gvFpATtyRdOQwJsm5sKK40jfVtDRedZPGIc1WwLo3o3gHIbAT8OnufOluPz62A6WiWG0knY4RspEhfaZuAbauG1WZBAGmNV099DzaCtjyrFcF8FCjKYYv0Uo13mWwcQaxfftci0PiGY2MMy7NbV8xPhwuXHaaC.g4vLXBkyyUD.EwQTa8chmSl35W4fk8_G.TUzO4K84kJ2_7ZqdAwqYXAFgS1ZOFgJDjOn8E.Gwq5AOyW.2oTyvfc; FSSBBIl1UgzbN7N8004T=3BEqeMehmX4EFHtCebMzx1TGKH9lzj8dMY7m6mC1CSIILi_2sCh_kvAiluuMk1JWEYpytZwYHBrMoRoQ8PtyeLLDu1dqvQbfXnJbRIkTTDNgHT2JI1KUzh4emjJcTOhnPz17hPxK0n4ps0FeLox45u6dbMbB2kuXDzCpMVRibGMh7Lz_MbG9wSdZVL6ZyR2HGa8drgn4Fej3E2raNVjlywlulOld9Efm.JHHSRwKRgW3504nUwWLcAWgbx_zsrGAk.IsMLJYL0KgfEdjaBU0cMD_OxY6HuBib9LeVJtFmqNgdia"}payloadData = {
"ChannelId": "web",
"ColFlag": "30",
"LoginType": "C",
"OperateMode": "",
"OrderByFlag": "ISSDATE",
"PageNo": "1",
"PrdCode": "",
"PrdName": "",
"Profit": "",
"RiskLevel": "",
"SellObject": "",
"Status": "",
"Term": "",
"Type": "0",
"BankId": "9999",
"MChannelId": "EIBS",
"locale": "zh_CN"
}
# url = 'http://www.jnbank.com.cn:8004/eweb/static/index.html#/app/FProducts'
start_url = "http://www.jnbank.com.cn:8004/eweb/queryFinacialList.do?MmEwMD="
response = requests.post(url=start_url, data=json.dumps(payloadData),headers=headers)# response = requests.Session.post(url=start_url, data=data, cookies=cookies,headers=headers)
print(response)

然后我们用requests测试了一下response返回给我们什么响应
竟然是一个400
我觉得是被反爬机制给发现了 但我还找不到他的js是怎么写的
这时候我选择了使用senlenium
使用senlenium跳过js 对页面进行渲染返回数据
一开始使用谷歌浏览器,发现页面还没等返回json数据就被拦截了
应该是我们使用selenium被反爬机制给监听到了
在这里插入图片描述
这个问题困扰了我几乎一天
然后后来才发现原来换个浏览器就好使了。。。。
火狐返回的数据是这样的 他抓取到了渲染后的网页
在这里插入图片描述
现在我们就需要将scrapy 和selenium结合起来
我们都知道爬虫的原理是这样的
在这里插入图片描述
selenium是一个中间件 我们则需要他在第4步以及第5步给我们返回渲染过的代码 这样我们就可以根据返回回来的静态的html代码来分析数据了
所以我们要在middleware里配置selenium然后通过截取request 来返回response
大概就是这样的原理

这篇关于Scrapy 结合 senlenium 进行爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/324116

相关文章

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

使用Python进行文件读写操作的基本方法

《使用Python进行文件读写操作的基本方法》今天的内容来介绍Python中进行文件读写操作的方法,这在学习Python时是必不可少的技术点,希望可以帮助到正在学习python的小伙伴,以下是Pyth... 目录一、文件读取:二、文件写入:三、文件追加:四、文件读写的二进制模式:五、使用 json 模块读写

使用zabbix进行监控网络设备流量

《使用zabbix进行监控网络设备流量》这篇文章主要为大家详细介绍了如何使用zabbix进行监控网络设备流量,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录安装zabbix配置ENSP环境配置zabbix实行监控交换机测试一台liunx服务器,这里使用的为Ubuntu22.04(

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

python安装完成后可以进行的后续步骤和注意事项小结

《python安装完成后可以进行的后续步骤和注意事项小结》本文详细介绍了安装Python3后的后续步骤,包括验证安装、配置环境、安装包、创建和运行脚本,以及使用虚拟环境,还强调了注意事项,如系统更新、... 目录验证安装配置环境(可选)安装python包创建和运行Python脚本虚拟环境(可选)注意事项安装

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

SpringBoot使用minio进行文件管理的流程步骤

《SpringBoot使用minio进行文件管理的流程步骤》MinIO是一个高性能的对象存储系统,兼容AmazonS3API,该软件设计用于处理非结构化数据,如图片、视频、日志文件以及备份数据等,本文... 目录一、拉取minio镜像二、创建配置文件和上传文件的目录三、启动容器四、浏览器登录 minio五、