(P11-P12)协程,通过信号量控制并发度

2024-06-08 05:38

本文主要是介绍(P11-P12)协程,通过信号量控制并发度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.协程:在单线程内实现并发
    • 2.通过信号量控制并发度

1.协程:在单线程内实现并发

  • 单线程爬虫的执行路径
    在这里插入图片描述
  • 协程:在单线程内实现并发
    核心原理:用一个超级循环(其实就是while true)循环
    核心原理:配合IO多路复用原理(IO时CPU可以干其他事情),等待IO时,切换到下一个
    CPU
    在这里插入图片描述
  • Python 异步IO库介绍:asyncio
    注意:
    (1)要用在异步IO编程中
    依赖的库必须支持异步IO特性
    (2)爬虫引用中:
    requests 不支持异步
    需要用 aiohttp
import asyncio# 获取事件循环
loop = asyncio.get_event_loop()##就是 while True:# 定义协程
async def myfunc(url):await get_url(url)## await目的是IO不进行阻塞,而是让程序进行
下一个loop# 创建task列表
##对多个url进行并发执行
tasks = [loop.create_task(myfunc(url)) for url in urls]# 执行爬虫事件列表
loop.run_until_complete(asyncio.wait(tasks))##执行tasks,等待tasks完成
  • eg:08. async_spider.py
import asyncio
import aiohttp
import blog_spider##协程:在超级循环里可以跑的函数,就是在异步IO中执行async_craw函数
async def async_craw(url):print("craw url: ", url)##async with创建对象async with aiohttp.ClientSession() as session:async with session.get(url) as resp:##resp.text()获取结果result = await resp.text()print(f"craw url: {url}, {len(result)}")##超级循环
loop = asyncio.get_event_loop()##使用协程函数定义一个list
tasks = [loop.create_task(async_craw(url))for url in blog_spider.urls]import timestart = time.time()
##等待tasks完成
loop.run_until_complete(asyncio.wait(tasks))
end = time.time()
print("use time seconds: ", end - start)
  • 测试:
    在这里插入图片描述

2.通过信号量控制并发度

  • 信号量(英语:Semaphore)
    信号量(英语:Semaphore)又称为信号量、旗语
    是一个同步对象,用于保持在0至指定最大值之间的一个计数值。
    当线程完成一次对该semaphore对象的等待(wait)时,该计数值减一;
    当线程完成一次对semaphore对象的释放(release)时,计数值加一。
    当计数值为0,则线程等待该semaphore对象不再能成功直至该semaphore对象变成signaled状态
    semaphore对象的计数值大于0,为signaled状态;计数值等于0,为nonsignaled状态.

  • 语法

方法1##10就是并发量的意思
sem = asyncio.Semaphore(10)# ... later
async with sem:# work with shared resource方法2:
sem = asyncio.Semaphore(10)# ... later
await sem.acquire()
try:# work with shared resource
finally:sem.release()
  • eg:
import asyncio
import aiohttp
import blog_spider##并发度10
semaphore = asyncio.Semaphore(10)async def async_craw(url):async with semaphore:print("craw url: ", url)async with aiohttp.ClientSession() as session:async with session.get(url) as resp:result = await resp.text()await asyncio.sleep(5)print(f"craw url: {url}, {len(result)}")loop = asyncio.get_event_loop()tasks = [loop.create_task(async_craw(url))for url in blog_spider.urls]import timestart = time.time()
loop.run_until_complete(asyncio.wait(tasks))
end = time.time()
print("use time seconds: ", end - start)
  • 测试:10个10个进行爬取
    在这里插入图片描述

  • 参考:链接

这篇关于(P11-P12)协程,通过信号量控制并发度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1041332

相关文章

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

高并发环境中保持幂等性

在高并发环境中保持幂等性是一项重要的挑战。幂等性指的是无论操作执行多少次,其效果都是相同的。确保操作的幂等性可以避免重复执行带来的副作用。以下是一些保持幂等性的常用方法: 唯一标识符: 请求唯一标识:在每次请求中引入唯一标识符(如 UUID 或者生成的唯一 ID),在处理请求时,系统可以检查这个标识符是否已经处理过,如果是,则忽略重复请求。幂等键(Idempotency Key):客户端在每次

Java并发编程之——BlockingQueue(队列)

一、什么是BlockingQueue BlockingQueue即阻塞队列,从阻塞这个词可以看出,在某些情况下对阻塞队列的访问可能会造成阻塞。被阻塞的情况主要有如下两种: 1. 当队列满了的时候进行入队列操作2. 当队列空了的时候进行出队列操作123 因此,当一个线程试图对一个已经满了的队列进行入队列操作时,它将会被阻塞,除非有另一个线程做了出队列操作;同样,当一个线程试图对一个空

控制反转 的种类

之前对控制反转的定义和解释都不是很清晰。最近翻书发现在《Pro Spring 5》(免费电子版在文章最后)有一段非常不错的解释。记录一下,有道翻译贴出来方便查看。如有请直接跳过中文,看后面的原文。 控制反转的类型 控制反转的类型您可能想知道为什么有两种类型的IoC,以及为什么这些类型被进一步划分为不同的实现。这个问题似乎没有明确的答案;当然,不同的类型提供了一定程度的灵活性,但

java线程深度解析(五)——并发模型(生产者-消费者)

http://blog.csdn.net/Daybreak1209/article/details/51378055 三、生产者-消费者模式     在经典的多线程模式中,生产者-消费者为多线程间协作提供了良好的解决方案。基本原理是两类线程,即若干个生产者和若干个消费者,生产者负责提交用户请求任务(到内存缓冲区),消费者线程负责处理任务(从内存缓冲区中取任务进行处理),两类线程之

java线程深度解析(四)——并发模型(Master-Worker)

http://blog.csdn.net/daybreak1209/article/details/51372929 二、Master-worker ——分而治之      Master-worker常用的并行模式之一,核心思想是由两个进程协作工作,master负责接收和分配任务,worker负责处理任务,并把处理结果返回给Master进程,由Master进行汇总,返回给客

深入解析秒杀业务中的核心问题 —— 从并发控制到事务管理

深入解析秒杀业务中的核心问题 —— 从并发控制到事务管理 秒杀系统是应对高并发、高压力下的典型业务场景,涉及到并发控制、库存管理、事务管理等多个关键技术点。本文将深入剖析秒杀商品业务中常见的几个核心问题,包括 AOP 事务管理、同步锁机制、乐观锁、CAS 操作,以及用户限购策略。通过这些技术的结合,确保秒杀系统在高并发场景下的稳定性和一致性。 1. AOP 代理对象与事务管理 在秒杀商品

PostgreSQL中的多版本并发控制(MVCC)深入解析

引言 PostgreSQL作为一款强大的开源关系数据库管理系统,以其高性能、高可靠性和丰富的功能特性而广受欢迎。在并发控制方面,PostgreSQL采用了多版本并发控制(MVCC)机制,该机制为数据库提供了高效的数据访问和更新能力,同时保证了数据的一致性和隔离性。本文将深入解析PostgreSQL中的MVCC功能,探讨其工作原理、使用场景,并通过具体SQL示例来展示其在实际应用中的表现。 一、

使用协程实现高并发的I/O处理

文章目录 1. 协程简介1.1 什么是协程?1.2 协程的特点1.3 Python 中的协程 2. 协程的基本概念2.1 事件循环2.2 协程函数2.3 Future 对象 3. 使用协程实现高并发的 I/O 处理3.1 网络请求3.2 文件读写 4. 实际应用场景4.1 网络爬虫4.2 文件处理 5. 性能分析5.1 上下文切换开销5.2 I/O 等待时间 6. 最佳实践6.1 使用 as

Go并发模型:流水线模型

Go作为一个实用主义的编程语言,非常注重性能,在语言特性上天然支持并发,Go并发模型有多种模式,通过流水线模型系列文章,你会更好的使用Go的并发特性,提高的程序性能。 这篇文章主要介绍流水线模型的流水线概念,后面文章介绍流水线模型的FAN-IN和FAN-OUT,最后介绍下如何合理的关闭流水线的协程。 Golang的并发核心思路 Golang并发核心思路是关注数据流动。数据流动的过程交给cha