小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门

2023-11-03 03:10

本文主要是介绍小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

人生苦短,我用 Python

前文传送门:

小白学 Python 爬虫(1):开篇

小白学 Python 爬虫(2):前置准备(一)基本类库的安装

小白学 Python 爬虫(3):前置准备(二)Linux基础入门

小白学 Python 爬虫(4):前置准备(三)Docker基础入门

小白学 Python 爬虫(5):前置准备(四)数据库基础

小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装

小白学 Python 爬虫(7):HTTP 基础

小白学 Python 爬虫(8):网页基础

小白学 Python 爬虫(9):爬虫基础

小白学 Python 爬虫(10):Session 和 Cookies

小白学 Python 爬虫(11):urllib 基础使用(一)

小白学 Python 爬虫(12):urllib 基础使用(二)

小白学 Python 爬虫(13):urllib 基础使用(三)

小白学 Python 爬虫(14):urllib 基础使用(四)

小白学 Python 爬虫(15):urllib 基础使用(五)

小白学 Python 爬虫(16):urllib 实战之爬取妹子图

小白学 Python 爬虫(17):Requests 基础使用

小白学 Python 爬虫(18):Requests 进阶操作

小白学 Python 爬虫(19):Xpath 基操

小白学 Python 爬虫(20):Xpath 进阶

小白学 Python 爬虫(21):解析库 Beautiful Soup(上)

小白学 Python 爬虫(22):解析库 Beautiful Soup(下)

小白学 Python 爬虫(23):解析库 pyquery 入门

小白学 Python 爬虫(24):2019 豆瓣电影排行

小白学 Python 爬虫(25):爬取股票信息

小白学 Python 爬虫(26):为啥买不起上海二手房你都买不起

小白学 Python 爬虫(27):自动化测试框架 Selenium 从入门到放弃(上)

小白学 Python 爬虫(28):自动化测试框架 Selenium 从入门到放弃(下)

小白学 Python 爬虫(29):Selenium 获取某大型电商网站商品信息

小白学 Python 爬虫(30):代理基础

小白学 Python 爬虫(31):自己构建一个简单的代理池

PS:原谅小编一件事儿,昨天公众号推送的前文传送门链接没搞对,导致所有连接都失效了,微信又对已经推送的文章有修改限制,只支持删改,不支持加链接,小编诚恳的给大家道个歉。

为什么需要异步请求库

按照惯例,先放官方链接:

官方文档:https://docs.aiohttp.org/en/stable/

可惜这个没有中文版的,浏览器自带的翻译软件凑合看吧,有看不懂的再看原文。

原因当然很简单,快啊~~~

啊呸,不对,是效率高。

这个效率高怎么定义呢?如果是爬取的接口或者页面没有前后的逻辑关系,举个栗子:必须要先从 a 页面获取某个数据才能拼出来 b 页面访问链接,这个就叫有前后逻辑关系。

我们很多情况下页面的爬取是没有前后逻辑关系的,使用同步请求库如: Requests 就只能等一个请求先出去,再回来才会发送下一个请求。

如果是换成异步请求库就不会有这个等待了,一个请求发出去,才不会管这个请求什么时间响应,直接下一个请求就接着发出去了,然后再是下下个请求。

当然,异步请求库也为我们提供了回调方法,不然我们都不知道什么时候请求有响应,什么时候会有我们想要的数据回来。

先看个简单的例子,我们先直观的感受下异步请求库到底能比同步请求库快多少。

这里使用的网站是度娘(其实本来想使用 Github 的,实在是小编使用的移动的宽带网络太xxx,循环打开十次 5 分钟都跑不完),无奈转换度娘,访问 100 次,因为 10 次太少了,看不出来差距。

Requests 版示例

示例代码如下:

import requests
from datetime import datetimestart = datetime.now()for i in range(100):print(requests.get('https://www.baidu.com/').text)end = datetime.now()print("request花费时间为:", end - start)

结果如下:

request花费时间为: 0:00:13.410708

其他的打印小编这里就不贴了,单纯的贴一下最后时间差的打印。

AioHttp 版示例

示例代码如下:

import aiohttp
import asyncio
from datetime import datetimeasync def main():async with aiohttp.ClientSession() as client:html = await client.get('https://www.baidu.com/')print(html)loop = asyncio.get_event_loop()tasks = []
for i in range(100):task = loop.create_task(main())tasks.append(task)start = datetime.now()loop.run_until_complete(main())end = datetime.now()print("aiohttp花费时间为:", end - start)

结果如下:

aiohttp花费时间为: 0:00:00.249995

各位同学,看到了没,这个访问速度天差地别啊,一个用了 13s 多,一个连 1s 都没到,这中间的差距小编已经不想算了,太大了。

不过访问速度这么快,访问有 ip 防御的网站,封的速度也挺快的,可能爬虫刚开始运行,茶杯子都没端起来就已经把 ip 封掉了。

基操

接下来我们简单的了解一下 AIOHTTP 的一些基本操作。

发请求

示例代码:

import aiohttp
import asyncioasync def aio_1():async with aiohttp.ClientSession() as session:async with session.get('https://www.baidu.com/') as resp:print(resp.status)print(await resp.text())loop = asyncio.get_event_loop()
loop.run_until_complete(aio_1())

结果就不贴了,这里主要是给各位同学演示如何使用 AIOHTTP 发送请求。

这里,我们使用一个 ClientSession 作为被调用的 session 和一个 ClientResponse 对象作为响应结果。

一下内容为来自官方文档的提示:

注意:

不要为每个请求创建会话。每个应用程序很可能需要一个会话来执行所有请求。

更复杂的情况可能需要在每个站点上进行一次会话,例如,一个会话用于Github,另一个会话用于Facebook API。无论如何,为每个请求建立会话是一个非常糟糕的主意。

会话内部包含一个连接池。连接重用和保持活动状态(默认情况下均处于启用状态)可能会提高整体性能。

响应

先看个示例:

async def aio_2():async with aiohttp.ClientSession() as session:async with session.get('https://www.geekdigging.com/') as resp:print(resp.status)print(await resp.text())loop = asyncio.get_event_loop()
loop.run_until_complete(aio_2())

AIOHTTP 为我们提供了自动解码的功能,

这里的示例访问小编的博客站,其中首页有大量的中文内容,如果解码不正确中文是不能正常显示的。结果小编就不贴了,解码正确。

当然,如果我们发现自动解码不正确的时候可以认为的设定解码类型,代码如下:

await resp.text(encoding='gb2312')

响应我们同样可以通过二进制字节流的方式来进行访问,代码如下:

print(await resp.read())

AIOHTTP 还为我们内置了一个 JSON 解码器,可以供我们直接处理 JSON 格式的响应数据,示例代码如下:

print(await resp.json())

超时

在前面我们介绍其他请求库的时候,都有遇到过超时的问题,一般而言,我们会为请求添加一个超时时间,那么在 AIOHTTP 中,超时时间的添加如下示例代码:

async def aio_3():timeout = aiohttp.ClientTimeout(total=60)async with aiohttp.ClientSession(timeout = timeout) as session:async with session.get('https://www.geekdigging.com/', timeout = timeout) as resp:print(resp.status)loop = asyncio.get_event_loop()
loop.run_until_complete(aio_3())

如果我们不设置超时时间 AIOHTTP 为我们默认设置的超时时间是 5 分钟,如果我们设置了超时时间,则以我们设置的为准,超时时间的设置可以在两个地方设置,小编已经在示例中都举例出来了。

我们可以直接在创建 ClientSession 的时候直接设置超时时间,这时,整个超时时间是在当前的会话中都有效的,如果在后面的调用中如 ClientSession.get(): 中重新设置超时时间,则会覆盖我们在创建 ClientSession 设置的超时时间。

而 ClientTimeout 则还有很多种属性可以进行设置,列表如下:

  • total:整个操作时间包括连接建立,请求发送和响应读取。
  • connect:该时间包括建立新连接或在超过池连接限制时等待池中的空闲连接的连接。
  • sock_connect:连接到对等点以进行新连接的超时,不是从池中给出的。
  • sock_read:从对等体读取新数据部分之间的时间段内允许的最大超时。

默认超时如下:

aiohttp.ClientTimeout(total=5*60, connect=None,sock_connect=None, sock_read=None)

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上,方便大家取用。

示例代码-Github

示例代码-Gitee

您的扫码关注,是对小编坚持原创的最大鼓励:)

这篇关于小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/335180

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al