异步爬虫-利用线程池爬取acg美图

2023-10-24 18:20

文章标签 线程爬虫异步美图 acg 池爬取

本文主要是介绍异步爬虫-利用线程池爬取acg美图，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

环境:Python3.8 开发工具:Pycharm

需要用到的库：
请求网址：requests
解析数据：lxml
保存文件与计算时间：os，uuid，time
多进程：multiprocessing

目标网址

http://acg17.com/

在这里插入图片描述
要爬取的图片在这些url里

在这里插入图片描述
因为要请求的是两个网址，这里我们需要异步爬虫，多进程解决速度慢的问题。

然而为什么使用多进程呢？当想提高cpu密集型任务的效率时，便可以使用多进程来改善这种情况。

例如我的cpu是4核8线程的
实例化线程池对象pool后创建线程池时最多写8个
（当然进程越多越快）

# 创建线程池
pool = Pool(8)

在这里插入图片描述
运行结果(支持多页爬取，这里我只各爬了一页)
三百多张不到一分钟，还是很快的

在这里插入图片描述

完整代码

import requests
import os,time
from lxml import etree
from multiprocessing.dummy import Pool
from uuid import uuid4
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36 Edg/84.0.522.63",
}

这篇关于异步爬虫-利用线程池爬取acg美图的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/276960。 23002807@qq.com

相关文章

JAVA线程的周期及调度机制详解

JAVA线程的周期及调度机制详解

《JAVA线程的周期及调度机制详解》Java线程的生命周期包括NEW、RUNNABLE、BLOCKED、WAITING、TIMED_WAITING和TERMINATED,线程调度依赖操作系统,采用抢占... 目录Java线程的生命周期线程状态转换示例代码JAVA线程调度机制优先级设置示例注意事项JAVA线程

阅读更多...

Python多任务爬虫实现爬取图片和GDP数据

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务

阅读更多...

深入理解Redis线程模型的原理及使用

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

阅读更多...

C++实现一个简易线程池的使用小结

C++实现一个简易线程池的使用小结

《C++实现一个简易线程池的使用小结》在现代软件开发中,多线程编程已经成为提升程序性能的常见手段,本文主要介绍了C++实现一个简易线程池的使用小结,感兴趣的可以了解一下... 在现代软件开发中，多线程编程已经成为提升程序性能的常见手段。无论是处理大量 I/O 请求的服务器，还是进行 CPU 密集型计算的应用

阅读更多...

JDK21对虚拟线程的几种用法实践指南

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,：本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

阅读更多...

Java 虚拟线程的创建与使用深度解析

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程？1.2 为什么需要虚拟线程？二、虚拟线程与平台线程对比代码对比示例：三

阅读更多...

Java 线程池+分布式实现代码

Java 线程池+分布式实现代码

《Java线程池+分布式实现代码》在Java开发中,池通过预先创建并管理一定数量的资源,避免频繁创建和销毁资源带来的性能开销,从而提高系统效率,：本文主要介绍Java线程池+分布式实现代码,需要... 目录1. 线程池1.1 自定义线程池实现1.1.1 线程池核心1.1.2 代码示例1.2 总结流程2. J

阅读更多...

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查（先问三件事）二、基础示例：requests 与证书处理三、高并发选型：

阅读更多...

Java JUC并发集合详解之线程安全容器完全攻略

Java JUC并发集合详解之线程安全容器完全攻略

《JavaJUC并发集合详解之线程安全容器完全攻略》Java通过java.util.concurrent（JUC）包提供了一整套线程安全的并发容器,它们不仅是简单的同步包装,更是基于精妙并发算法构建... 目录一、为什么需要JUC并发集合？二、核心并发集合分类与详解三、选型指南：如何选择合适的并发容器？在多

阅读更多...

Java中如何正确的停掉线程

Java中如何正确的停掉线程

《Java中如何正确的停掉线程》Java通过interrupt()通知线程停止而非强制,确保线程自主处理中断,避免数据损坏,线程池的shutdown()等待任务完成,shutdownNow()强制中断... 目录为什么不强制停止为什么 Java 不提供强制停止线程的能力呢？如何用interrupt停止线程s

阅读更多...