python爬虫之 asyncio异步协程学习

2024-04-25 17:38

本文主要是介绍python爬虫之 asyncio异步协程学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python爬虫之 asyncio异步协程学习

导包

import asyncio
import aiohttp

第一步:创建一个特殊的函数

async def get_request(url):

被 async 修饰的函数就是一个特殊函数,有一下特性:

  1. 该函数被调用,不会立即执行
  2. 函数被调用后返回一个协程对象

第二步:协程对象

调用特殊函数就会返回一个协程对象

c = get_request(url) # 这里变量c 就是一个协程对象

第三步:任务对象(高级的协程对象)
利用协程对象( c ) 固定语句创建

task = asyncio.ensure_future(c) #这里变量task 就是一个任务对象

第四步:事件循环 Event Loop

创建事件循环对象

loop = asyncio.get_event_loop()

用来存放多个任务对象。如果事件循环中存放了多个任务对象,事件循环启动后就可以异步的将每一个任务对象对应的指定操作执行。

第五步:将任务对象注册到事件循环中,并开启

loop.run_until_complete(task) #这里变量task 就是一个任务对象

将多个任务对象注册到事件循环中

loop.run_until_complete(asyncio.wait(tasks)) #asyncio.wait(tasks)表示将任务列表中的任务对象进行挂起# tasks任务列表获取流程
tasks = []
for url in urls:c = get_request(url) #创建协程对象task = asyncio.ensure_futyre(c) #创建任务对象task.add_done_callback(parse) #绑定回调函数tasks.append(task) #把多个任务对象添加到任务列表中

第六步:数据的解析,持久化存储是不可以在特殊函数里面进行的,必须绑定一个回调函数。

基于任务对象(task)的回调函数绑定

task.add_done_callback(parse)  #这里的parse为回调函数的函数名,可以是任意变量名
# 这里parse()函数的参数就是任务对象本身(task),即parse(task) 

parse()函数要获取task对象的返回值,需要调用task对象的result()方法:response= task.resule()

第七步:

async 定义的特殊函数内部不能用同步请求的模块(requests),要用aiohttp异步请求模块。

async def get_request(url):async with aiohttp.ClientSession() as sess:async with await sess.get(url=url, headers=headers) as response: content = await response.text() #text()返回字符串形式数据 read()返回二进制形式数据
# 在所有阻塞操作前面加上await 
#await 可以确保在异步执行操作的过程中阻塞操作的执行完毕
完整代码:
import asyncio
import time
import aiohttp
from lxml import etreeasync def get_request(url):async with aiohttp.ClientSession() as sess:#实例化一个请求对象sessasync with await sess.get(url) as response: #调用get发请求,返回一个响应对象page_text = await response.text() #获取了页面源码数据return page_text
def parse(task):#result():返回的就是特殊函数的返回值page_text = task.result()tree = etree.HTML(page_text) #解析data_text = tree.xpath('//a[@id="feng"]/text()')[0]wirh open ('....', 'w') as fp:   #持久化存储fp.write(data_text)
if __name__ == "__main__":urls = ['http://xxxxxx','http://xxxxxx','http://xxxx']tasks = []for url in urls:#创建三个协程对象c = get_request(url)#创建三个任务对象task = asyncio.ensure_future(c)task.add_done_callback(parse)#绑定回调tasks.append(task)loop = asyncio.get_event_loop()loop.run_until_complete(asyncio.wait(tasks))

这篇关于python爬虫之 asyncio异步协程学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/935357

相关文章

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

Python安装时常见报错以及解决方案

《Python安装时常见报错以及解决方案》:本文主要介绍在安装Python、配置环境变量、使用pip以及运行Python脚本时常见的错误及其解决方案,文中介绍的非常详细,需要的朋友可以参考下... 目录一、安装 python 时常见报错及解决方案(一)安装包下载失败(二)权限不足二、配置环境变量时常见报错及

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

Python创建Excel的4种方式小结

《Python创建Excel的4种方式小结》这篇文章主要为大家详细介绍了Python中创建Excel的4种常见方式,文中的示例代码简洁易懂,具有一定的参考价值,感兴趣的小伙伴可以学习一下... 目录库的安装代码1——pandas代码2——openpyxl代码3——xlsxwriterwww.cppcns.c

Python中Markdown库的使用示例详解

《Python中Markdown库的使用示例详解》Markdown库是一个用于处理Markdown文本的Python工具,这篇文章主要为大家详细介绍了Markdown库的具体使用,感兴趣的... 目录一、背景二、什么是 Markdown 库三、如何安装这个库四、库函数使用方法1. markdown.mark

一分钟带你上手Python调用DeepSeek的API

《一分钟带你上手Python调用DeepSeek的API》最近DeepSeek非常火,作为一枚对前言技术非常关注的程序员来说,自然都想对接DeepSeek的API来体验一把,下面小编就来为大家介绍一下... 目录前言免费体验API-Key申请首次调用API基本概念最小单元推理模型智能体自定义界面总结前言最

Python利用PIL进行图片压缩

《Python利用PIL进行图片压缩》有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所以本文为大家介绍了Python中图片压缩的方法,需要的可以参考下... 有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所有可以对文件中的图