python如何爬取图片到指定文件夹_想要利用Python快速爬取整站图片?速进(附完整代码)...

本文主要是介绍python如何爬取图片到指定文件夹_想要利用Python快速爬取整站图片?速进(附完整代码)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

uiboxs = response.xpath("//div[@class='uibox']")[1:] # 使用切片操作

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

下图为所获取到的所有结果(通过scrapy shell 解析所得到的结果)

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

至于为什么会用到接片操作,我们可以看下图

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==​由上图我们可以看到爬取图片的时候全景看车这部分是不需要爬取的。由于其不是我们所需要的,那么我们就需要把它排除掉,而排除操作我选择的是切片操作。

切片操作完成后,我们通过循环遍历可以分别得到我们所需要的图片名称及图片链接。

怎样得到的?我们先看下HTML源码结构:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

根据上面两张图片,我们可以分别进行xpath解析。解析式如下:

for uibox in uiboxs:

category = uibox.xpath(".//div[@class = 'uibox-title']/a/text()").get()

print(category)

urls = uibox.xpath(".//ul/li/a/img/@src").getall()

print(urls)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

解析完成后,我们通过输出打印看下效果:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

根据上图我们可以看到图片的网址是不完全的,这时候我们可以通过添加https:使其形式成为url = "https:"+url这种形式。最终可以的到下图的效果:

for url in urls:

url = "https:"+url

print(url)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

上述代码用的是最原始的遍历方法让每一个图片地址输出成我们想要的,那么还有其他方法没有?

答案是肯定! 下面博主给的代码即为优化方法:

优化1:自动拼接成完整的URL

for url in urls:

url = response.urljoin(url)

print(url)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

优化2: 使用map()

在使用map()优化前,我们需要先设定好item.py

class BmwItem(scrapy.Item):

category = scrapy.Field()

urls= scrapy.Field()

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

urls = list(map(lambda url:response.urljoin(url),urls))

item = BmwItem(category = category , urls = urls)

yield item

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

上述两种优化方法得到的结果和第一个是一样的。效果图如下:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

2. 存储的具体实现 (在pipelines中处理)

在使用pipelines的时候,我们需要先从设置里打开选项,把默认的注释去掉

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

去掉注释以后,我们就把图片保存到本地这一想法从理论成为现实:

怎样实现?

在此博主总共分成两步进行实现,首先是先判断是否有目录,如果有的话就直接进行下一步,如果没有的话,则会进行自动创建,源码部分如下:

def __init__(self):

# 获取并创建当前目录,没有自行创建

self.path = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

if not os.path.exists(self.path):

os.mkdir(self.path)

else:

print('images文件夹存在')

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

文件夹创建完成后,就需要对图片进行保存了。源码如下:

def process_item(self, item, spider):

category = item['category']

urls = item['urls']

category_path = os.path.join(self.path,category)

if not os.path.exists(category_path):

os.mkdir(category_path)

for url in urls:

image_name = url.split('_')[-1]

request.urlretrieve(url,os.path.join(category_path,image_name))

return item

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

对上述源码,博主只对image_name = url.split('_')[-1]这一句做详细解释。至于为什么要这样操作,看下图:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

根据上图,我们不难看出所有图片地址的_之前基本上都是一样的,那么我们就以_为分割线 ,通过切片的方式选取最后一部分当作我们所要保存的图片的名称!

下面查看一下运行的结果:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

通过图片我们可以看到我们已经成功的把理想编程了现实。

3. 更新完善源码

虽然通过以上的步骤我们已经完成了图片的爬取,但是我们要知道我们用的是不同的循环遍历的方法一张一张的下载。初次之外,上述的方法也没有用到异步下载,效率较为低下。

在这个时候我们就可以使用scrapy框架自带的item pipelines了。

为什么要选择使用scrapy内置的下载文件的方法:

避免重新下载最近已经下载过的数据。

可以方便的指定文件存储的路径。

可以将下载的图片转换成通用的格式。比如png或jpg。

可以方便的生成缩略图。

可以方便的检测图片的宽和高,确保他们满足最小限制。

异步下载,效率非常高

下载文件的Files Pipeline与下载图片的Images Pipeline:

当使用Files Pipeline下载文件的时候,按照以下步骤来完成:

定义好一个Item,然后在这个item中定义两个属性,分别为file_urls以及files = file_urls是用来存储需要下载的文件的url链接,需要给一个列表。

当文件下载完成后,会把文件下载的相关信息存储到item的fileds属性中。比如下载路径、下载的url和文件的校验码等。

在配置文件settings.py中配置FILES_STORE,这个配置是用来设置文件下载下来的路径。

启动pipeline:在ITEM_PIPELINES中设置scrapy.pipelines.files.FilesPipelines:1。

当使用Images Pipeline下载文件的时候,按照以下步骤来完成:

定义好一个Item,然后在这个item中定义两个属性,分别为image_urls以及images = image_urls是用来存储需要下载的图片的url链接,需要给一个列表。

当文件下载完成后,会把文件下载的相关信息存储到item的images属性中。比如下载路径、下载的url和文件的校验码等。

在配置文件settings.py中配置IMAGES_STORE,这个配置是用来设置文件下载下来的路径。

启动pipeline:在ITEM_PIPELINES中设置scrapy.pipelines.images.ImagesPipelines:1。

1. 修改完善items.py

class BmwItem(scrapy.Item):

category = scrapy.Field()

image_urls= scrapy.Field()

images = scrapy.Field()

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

2. 修改主程序

# 修改此部分

item = BmwItem(category = category , image_urls = urls)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

3. 调用scrapy自带的image Pipelines及images_store

ITEM_PIPELINES = {

# 'bmw1.pipelines.Bmw1Pipeline': 300,

# 系统自带的Pipeline 可以实现异步

'scrapy.pipelines.images.ImagesPipeline': 1

}

# 图片下载的路径,供image pipelines使用

IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

好了,修改完成,下面我们来看下效果

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

我们可以看到现在下载速度很快,只用了两秒就完成了整个宝马五系车型图片的下载,但是这样还是有弊端的,因为这样我们下载所有图片都在一个默认的full文件夹下,而没有任何分类。

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

这时候可能会有读者问:这能按分类进行排序么!答案是能的。看博主下面操作:

为了实现上述读者所说的需求,其实很简单,只需要我们再次在pipelines.py中重写一个类即可

4. 重写类

# 重写一个新类,使其能够分类下载

class BMWImagesPipeline(ImagesPipeline):

def get_media_requests(self, item, info):

# 这个方法是在发送下载请求之前调用

# 其实这个方法本身就是去发送下载请求的

request_objs = super(BMWImagesPipeline, self).get_media_requests(item,info)

for request_obj in request_objs:

request_obj.item = item

return request_objs

def file_path(self, request, response=None, info=None):

# 这个方法是在图片将要被存储的时候调用,来获取这个图片存储的路径

path = super(BMWImagesPipeline, self).file_path(reque

这篇关于python如何爬取图片到指定文件夹_想要利用Python快速爬取整站图片?速进(附完整代码)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/342237

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回被删除的桌面文件。下面,就让我们一起来了解一下这些恢复桌面文件的方法吧。 一、使用撤销操作 如果我们刚刚删除了桌面上的文件,并且还没有进行其他操作,那么可以尝试使用撤销操作来恢复文件。在键盘上同时按下“C

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能