基础篇(7)多线线程+对象实现爬虫

2024-08-28 18:58

本文主要是介绍基础篇(7)多线线程+对象实现爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

 

import time
import random
import re
import os
from urllib import request
import requests
import threading
from lxml import etree
from queue import Queue  # 这个队列是线程队列
"""
多线程的Queue就是线程安全的,所有我们不用考虑锁的问题
"""class Procuder(threading.Thread):"""生成者继承threading.Thread需要实现__init__方法和run()"""headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}def __init__(self,url_queue,img_queue,*args,**kwargs):""":param url_queue: url地址队列:param img_queue: 图片地址队列:param args: threading.Thread类的元组参数:param kwargs: threading.Thread的字典参数"""super(Procuder,self).__init__(*args,**kwargs)self.url_queue =url_queueself.img_queue =img_queuedef run(self):while True:if self.url_queue.empty():breakurl =self.url_queue.get() # 从队列中获取一个urlself.parse_page(url)def parse_page(self,url):response = requests.get(url,headers=self.headers)if response.status_code==200:text = response.texthtml = etree.HTML(text)imgs = html.xpath("//div[@class='page-content text-center']//img[@class!='gif']")for img in imgs:img_url = img.get("data-original")alt = img.get("alt")alt = re.sub(r'[\.\*\?。?!!,,]',"",alt)suffix = os.path.splitext(img_url)[1]file_name = alt +suffixself.img_queue.put((img_url,file_name))class Consumer(threading.Thread):def __init__(self,url_queue,img_queue,*args,**kwargs):super(Consumer,self).__init__(*args,**kwargs)self.url_queue = url_queueself.img_queue = img_queuedef run(self):while True:if self.url_queue.empty() and self.img_queue.empty():breakimg_url, filename = self.img_queue.get()request.urlretrieve(img_url, 'images/' + filename)print(filename + '  下载完成!')
def main():url_queue = Queue(100)img_queue = Queue(1000)for page in range(1,101):url = "http://www.doutula.com/photo/list/?page={}".format(str(page))url_queue.put(url)for i in range(5):p_thrd = Procuder(url_queue,img_queue)p_thrd.start()for j in range(10):c_thrd = Consumer(url_queue,img_queue)c_thrd.start()
if __name__ == '__main__':main()

 

这篇关于基础篇(7)多线线程+对象实现爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1115607

相关文章

C# string转unicode字符的实现

《C#string转unicode字符的实现》本文主要介绍了C#string转unicode字符的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录1. 获取字符串中每个字符的 Unicode 值示例代码:输出:2. 将 Unicode 值格式化

python安装whl包并解决依赖关系的实现

《python安装whl包并解决依赖关系的实现》本文主要介绍了python安装whl包并解决依赖关系的实现,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录一、什么是whl文件?二、我们为什么需要使用whl文件来安装python库?三、我们应该去哪儿下

Python脚本实现图片文件批量命名

《Python脚本实现图片文件批量命名》这篇文章主要为大家详细介绍了一个用python第三方库pillow写的批量处理图片命名的脚本,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言源码批量处理图片尺寸脚本源码GUI界面源码打包成.exe可执行文件前言本文介绍一个用python第三方库pi

Java中将异步调用转为同步的五种实现方法

《Java中将异步调用转为同步的五种实现方法》本文介绍了将异步调用转为同步阻塞模式的五种方法:wait/notify、ReentrantLock+Condition、Future、CountDownL... 目录异步与同步的核心区别方法一:使用wait/notify + synchronized代码示例关键

Nginx实现动态封禁IP的步骤指南

《Nginx实现动态封禁IP的步骤指南》在日常的生产环境中,网站可能会遭遇恶意请求、DDoS攻击或其他有害的访问行为,为了应对这些情况,动态封禁IP是一项十分重要的安全策略,本篇博客将介绍如何通过NG... 目录1、简述2、实现方式3、使用 fail2ban 动态封禁3.1 安装 fail2ban3.2 配

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Java中实现订单超时自动取消功能(最新推荐)

《Java中实现订单超时自动取消功能(最新推荐)》本文介绍了Java中实现订单超时自动取消功能的几种方法,包括定时任务、JDK延迟队列、Redis过期监听、Redisson分布式延迟队列、Rocket... 目录1、定时任务2、JDK延迟队列 DelayQueue(1)定义实现Delayed接口的实体类 (

将java程序打包成可执行文件的实现方式

《将java程序打包成可执行文件的实现方式》本文介绍了将Java程序打包成可执行文件的三种方法:手动打包(将编译后的代码及JRE运行环境一起打包),使用第三方打包工具(如Launch4j)和JDK自带... 目录1.问题提出2.如何将Java程序打包成可执行文件2.1将编译后的代码及jre运行环境一起打包2

Java中对象的创建和销毁过程详析

《Java中对象的创建和销毁过程详析》:本文主要介绍Java中对象的创建和销毁过程,对象的创建过程包括类加载检查、内存分配、初始化零值内存、设置对象头和执行init方法,对象的销毁过程由垃圾回收机... 目录前言对象的创建过程1. 类加载检查2China编程. 分配内存3. 初始化零值4. 设置对象头5. 执行

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1