爬虫入门到精通_实战篇12(使用Redis+Flask维护动态Cookies池)

2024-03-15 02:28

文章标签 动态使用入门精通 redis 爬虫维护 flask 实战篇 cookies

本文主要是介绍爬虫入门到精通_实战篇12(使用Redis+Flask维护动态Cookies池)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1 目标

为什么要用Cookies池

网站需要登录才可爬取，例如新浪微博
爬取过程中如果频率过高会导致封号
需要维护多个账号的Cookies池实现大规模爬取

Cookies池的要求

自动登录更新
定时验证筛选
提供外部接口

2 流程框架

在这里插入图片描述
首先，需要有一个账号队列，把一些账号密码存到数据库里，生成器即程序从队列里面拿出账号密码，自动地进行登录，并获取登录的Cookies，然后放到Cookies队列里。定时检测器从Cookies队列里定期地随机选出一些Cookies，并用这些Cookies请求网页，如果请求成功就放回队列，否则从队列里剔除，这样就能做到实时更新，保证Cookies队列里的Cookies都是可用的。此外，还需要提供一个API接口，使外部程序能够从队列里获取到Cookies。

3 代码

代码下载

https://github.com/Germey/CookiesPool
https://github.com/Python3WebSpider/CookiesPool

代码结构

在这里插入图片描述

代码分析

config.py

配置文件
在这里插入图片描述
进程开关，可以模拟每次只生效其中一个

run.py

函数入口
在这里插入图片描述

scheduler.py

调度器方法
在这里插入图片描述
分别对应配置文件里的参数，判断生效的进程

GENERATOR_MAP：这里有多少网站，就会验证多少网站，易于扩展.
验证器

产生器

api，传入api地址和端口

db.py

redis数据库相关操作
RedisClient：通用数据库操作
CookiesRedisClient：管理Cookies的对象的数据库操作
AccountRedisClient：账号的管理的数据库操作

error.py

自定义错误
在这里插入图片描述

tester.py

验证器的相关操作
在这里插入图片描述
ValidTester：定义一些相关通用方法
WeiboValidTester和MWeiboValidTester继承ValidTester

generator.py

拿出db里的账号，去微博里验证，验证后的cookies存入db.
在这里插入图片描述
CookiesGenerator:一些共通方法
WeiboCookiesGenerator和MWeiboCookiesGenerator继承CookiesGenerator

初始化操作

微博初始化时，一些验证码的操作Yundama.

verify.py

ydm验证码的改写

这篇关于爬虫入门到精通_实战篇12(使用Redis+Flask维护动态Cookies池)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/810505。 23002807@qq.com

相关文章

postgresql使用UUID函数的方法

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数，和可以安装的扩展函数

阅读更多...

如何使用Lombok进行spring 注入

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码，好处不用多说。spring 注入方式为2种，构造器注入和setter

阅读更多...

MySQL中比较运算符的具体使用

MySQL中比较运算符的具体使用

《MySQL中比较运算符的具体使用》本文介绍了SQL中常用的符号类型和非符号类型运算符,符号类型运算符包括等于(=)、安全等于(=)、不等于(/!=)、大小比较(,=,,=)等,感兴趣的可以了解一下... 目录符号类型运算符1. 等于运算符=2. 安全等于运算符<=>3. 不等于运算符<>或!=4. 小于运

阅读更多...

使用zip4j实现Java中的ZIP文件加密压缩的操作方法

使用zip4j实现Java中的ZIP文件加密压缩的操作方法

《使用zip4j实现Java中的ZIP文件加密压缩的操作方法》本文介绍如何通过Maven集成zip4j1.3.2库创建带密码保护的ZIP文件,涵盖依赖配置、代码示例及加密原理,确保数据安全性,感兴趣的... 目录1. zip4j库介绍和版本1.1 zip4j库概述1.2 zip4j的版本演变1.3 zip4

阅读更多...

从入门到进阶讲解Python自动化Playwright实战指南

从入门到进阶讲解Python自动化Playwright实战指南

《从入门到进阶讲解Python自动化Playwright实战指南》Playwright是针对Python语言的纯自动化工具,它可以通过单个API自动执行Chromium,Firefox和WebKit... 目录Playwright 简介核心优势安装步骤观点与案例结合Playwright 核心功能从零开始学习

阅读更多...

Python 字典 (Dictionary)使用详解

Python 字典 (Dictionary)使用详解

《Python字典(Dictionary)使用详解》字典是python中最重要,最常用的数据结构之一,它提供了高效的键值对存储和查找能力,：本文主要介绍Python字典(Dictionary)... 目录字典1.基本特性2.创建字典3.访问元素4.修改字典5.删除元素6.字典遍历7.字典的高级特性默认字典

阅读更多...

使用Python构建一个高效的日志处理系统

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

阅读更多...

一文详解如何使用Java获取PDF页面信息

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸（宽高）四、获取页面旋转角度五、判断

阅读更多...

C++中assign函数的使用

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录1.assign的基本功能语法2. 具体用法示例(1) 填充n个相同值(2)

阅读更多...

Redis中Stream详解及应用小结

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

阅读更多...