本文主要是介绍python爬虫之 asyncio异步协程学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
python爬虫之 asyncio异步协程学习
导包
import asyncio
import aiohttp
第一步:创建一个特殊的函数
async def get_request(url):
被 async 修饰的函数就是一个特殊函数,有一下特性:
- 该函数被调用,不会立即执行
- 函数被调用后返回一个协程对象
第二步:协程对象
调用特殊函数就会返回一个协程对象
c = get_request(url) # 这里变量c 就是一个协程对象
第三步:任务对象(高级的协程对象)
利用协程对象( c ) 固定语句创建
task = asyncio.ensure_future(c) #这里变量task 就是一个任务对象
第四步:事件循环 Event Loop
创建事件循环对象
loop = asyncio.get_event_loop()
用来存放多个任务对象。如果事件循环中存放了多个任务对象,事件循环启动后就可以异步的将每一个任务对象对应的指定操作执行。
第五步:将任务对象注册到事件循环中,并开启
loop.run_until_complete(task) #这里变量task 就是一个任务对象
将多个任务对象注册到事件循环中
loop.run_until_complete(asyncio.wait(tasks)) #asyncio.wait(tasks)表示将任务列表中的任务对象进行挂起# tasks任务列表获取流程
tasks = []
for url in urls:c = get_request(url) #创建协程对象task = asyncio.ensure_futyre(c) #创建任务对象task.add_done_callback(parse) #绑定回调函数tasks.append(task) #把多个任务对象添加到任务列表中
第六步:数据的解析,持久化存储是不可以在特殊函数里面进行的,必须绑定一个回调函数。
基于任务对象(task)的回调函数绑定
task.add_done_callback(parse) #这里的parse为回调函数的函数名,可以是任意变量名
# 这里parse()函数的参数就是任务对象本身(task),即parse(task)
parse()函数要获取task对象的返回值,需要调用task对象的result()方法:response= task.resule()
第七步:
async 定义的特殊函数内部不能用同步请求的模块(requests),要用aiohttp异步请求模块。
async def get_request(url):async with aiohttp.ClientSession() as sess:async with await sess.get(url=url, headers=headers) as response: content = await response.text() #text()返回字符串形式数据 read()返回二进制形式数据
# 在所有阻塞操作前面加上await
#await 可以确保在异步执行操作的过程中阻塞操作的执行完毕
完整代码:
import asyncio
import time
import aiohttp
from lxml import etreeasync def get_request(url):async with aiohttp.ClientSession() as sess:#实例化一个请求对象sessasync with await sess.get(url) as response: #调用get发请求,返回一个响应对象page_text = await response.text() #获取了页面源码数据return page_text
def parse(task):#result():返回的就是特殊函数的返回值page_text = task.result()tree = etree.HTML(page_text) #解析data_text = tree.xpath('//a[@id="feng"]/text()')[0]wirh open ('....', 'w') as fp: #持久化存储fp.write(data_text)
if __name__ == "__main__":urls = ['http://xxxxxx','http://xxxxxx','http://xxxx']tasks = []for url in urls:#创建三个协程对象c = get_request(url)#创建三个任务对象task = asyncio.ensure_future(c)task.add_done_callback(parse)#绑定回调tasks.append(task)loop = asyncio.get_event_loop()loop.run_until_complete(asyncio.wait(tasks))
这篇关于python爬虫之 asyncio异步协程学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!