基础篇(7)多线线程+对象实现爬虫

2024-08-28 18:58

本文主要是介绍基础篇(7)多线线程+对象实现爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

 

import time
import random
import re
import os
from urllib import request
import requests
import threading
from lxml import etree
from queue import Queue  # 这个队列是线程队列
"""
多线程的Queue就是线程安全的,所有我们不用考虑锁的问题
"""class Procuder(threading.Thread):"""生成者继承threading.Thread需要实现__init__方法和run()"""headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}def __init__(self,url_queue,img_queue,*args,**kwargs):""":param url_queue: url地址队列:param img_queue: 图片地址队列:param args: threading.Thread类的元组参数:param kwargs: threading.Thread的字典参数"""super(Procuder,self).__init__(*args,**kwargs)self.url_queue =url_queueself.img_queue =img_queuedef run(self):while True:if self.url_queue.empty():breakurl =self.url_queue.get() # 从队列中获取一个urlself.parse_page(url)def parse_page(self,url):response = requests.get(url,headers=self.headers)if response.status_code==200:text = response.texthtml = etree.HTML(text)imgs = html.xpath("//div[@class='page-content text-center']//img[@class!='gif']")for img in imgs:img_url = img.get("data-original")alt = img.get("alt")alt = re.sub(r'[\.\*\?。?!!,,]',"",alt)suffix = os.path.splitext(img_url)[1]file_name = alt +suffixself.img_queue.put((img_url,file_name))class Consumer(threading.Thread):def __init__(self,url_queue,img_queue,*args,**kwargs):super(Consumer,self).__init__(*args,**kwargs)self.url_queue = url_queueself.img_queue = img_queuedef run(self):while True:if self.url_queue.empty() and self.img_queue.empty():breakimg_url, filename = self.img_queue.get()request.urlretrieve(img_url, 'images/' + filename)print(filename + '  下载完成!')
def main():url_queue = Queue(100)img_queue = Queue(1000)for page in range(1,101):url = "http://www.doutula.com/photo/list/?page={}".format(str(page))url_queue.put(url)for i in range(5):p_thrd = Procuder(url_queue,img_queue)p_thrd.start()for j in range(10):c_thrd = Consumer(url_queue,img_queue)c_thrd.start()
if __name__ == '__main__':main()

 

这篇关于基础篇(7)多线线程+对象实现爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1115607

相关文章

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

IDEA中新建/切换Git分支的实现步骤

《IDEA中新建/切换Git分支的实现步骤》本文主要介绍了IDEA中新建/切换Git分支的实现步骤,通过菜单创建新分支并选择是否切换,创建后在Git详情或右键Checkout中切换分支,感兴趣的可以了... 前提:项目已被Git托管1、点击上方栏Git->NewBrancjsh...2、输入新的分支的

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操