[Python]使用Scrapy爬虫框架简单爬取图片并保存本地

2024-08-28 11:38

本文主要是介绍[Python]使用Scrapy爬虫框架简单爬取图片并保存本地,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


初学Scrapy,实现爬取网络图片并保存本地功能

一、先看最终效果

保存在F:\pics文件夹下
这里写图片描述

二、安装scrapy

1、python的安装就不说了,我用的python2.7,执行命令pip install scrapy,或者使用easy_install 命令都可以

2、可能会报如下错误

***********************************************************
    Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
    ***********************************************************

这里写图片描述
解决方法:安装libxml2
下载对应的python的版本,安装即可,网址:
https://pypi.python.org/pypi/lxml/3.4.4

三、创建项目

1、执行命令

scrapy startproject xiaohuar

会自动创建xiaohuar的scrapy项目

2、项目结构(我用的是WingIDE)

这里写图片描述

文件说明:
• scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
• items.py 设置数据存储模板,用于结构化数据,如:Django的Model
• pipelines 数据处理行为,如:一般结构化的数据持久化
• settings.py 配置文件,如:递归的层数、并发数,延迟下载等
• spiders 爬虫目录,如:创建文件,编写爬虫规则

四、编写爬虫程序

1、在spiders文件夹下创建.py文件

代码中注释已经很详细了,就不解释了,关于解析html内容,使用的是xpath,之前使用java的webmagic 爬虫框架也是使用的此种方式,所示还是比较熟悉,一些插叙语法参考步骤2

# -*- coding:utf-8 -*-
import scrapy
import re
import os
import urllib
from scrapy.selector import Selector
from scrapy.http import HtmlResponse,Requestclass Xiaohuar_spider(scrapy.spiders.Spider):name="xiaohuar"#定义爬虫名allowed_domains=["xiaohuar.com"]    #搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页start_urls=["http://www.xiaohuar.com/list-1-1.html"]#该函数名不能改变,因为Scrapy源码中默认callback函数的函数名就是parsedef parse(self, response):current_url=response.url    #爬取时请求的urlbody=response.body  #返回的htmlunicode_body=response.body_as_unicode() #返回的html unicode      hxs=Selector(response) #创建查询对象,HtmlXPathSelector已过时if re.match('http://www.xiaohuar.com/list-1-\d+.html', response.url):#如果url能够匹配到需要爬取的url,就爬取items=hxs.xpath('//div[@class="item_list infinite_scroll"]/div')#匹配到大的div下的所有小div(每个小div中包含一个图片)for i in range(len(items)):#遍历div个数src=hxs.xpath('//div[@class="item_list infinite_scroll"]/div[%d]//div[@class="img"]/a/img/@src'%i).extract() #查询所有img标签的src属性,即获取校花图片地址name=hxs.xpath('//div[@class="item_list infinite_scroll"]/div[%d]//div[@class="img"]/span/text()'%i).extract() #获取span的文本内容,即校花姓名school=hxs.xpath('//div[@class="item_list infinite_scroll"]/div[%d]//div[@class="img"]/div[@class="btns"]/a/text()'%i).extract()#校花学校if src:absoluteSrc="http://www.xiaohuar.com"+src[0] #拼接实际路径,因为.extract()会返回一个list,但是我们是依次取得div,所以是取第0个file_name="%s_%s.jpg"%(school[0],name[0])#拼接文件名,学校_姓名file_path=os.path.join("F:\\pics",file_name)#拼接这个图片的路径,我是放在F盘的pics文件夹下urllib.urlretrieve(absoluteSrc,file_path)#接收文件路径和需要保存的路径,会自动去文件路径下载并保存到我们指定的本地路径all_urls = hxs.xpath('//a/@href').extract()#提取界面所有的urlfor url in all_urls:#遍历获得的url,如果满足条件,继续爬取if url.startswith('http://www.xiaohuar.com/list-1-'):yield Request(url, callback=self.parse)           

2、xpath查询语法

查询标签中带有某个class属性的标签://div[@class=’c1’]即子子孙孙中标签是div且class=‘c1’的标签
• 查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签://div[@class=’c1’][@name=’alex’]
• 查询某个标签的文本内容://div/span/text() 即查询子子孙孙中div下面的span标签中的文本内容
• 查询某个属性的值(例如查询a标签的href属性)://a/@href

3、运行

进入到xiaohuar目录,执行
scrapy crawl xiaohuar
可能会报以下错误,原因是少win32api的模块
这里写图片描述
解决方法:
选择对应的版本下载安装即可地址:
http://sourceforge.net/projects/pywin32/files/

4、关于scrapy shell终端

可以使用scrapy shell进行调试,例如执行
scrapy shell http://www.xiaohuar.com/list-1-1.html
就可以查看得到的数据

这里写图片描述

5、最后的说明

程序执行过程中可以设置爬取的深度,我这里没有设置,可能关掉cmd程序还在执行,可以结束python的进程,或者设置爬取深度
程序放到了github上,地址:

https://github.com/lawlite19/CrawlPicture_Scrapy


五、总结

最近学习在python,实现非常简单的一个爬虫当做练习,中间一些模块的缺少错误,在网上查询还是费了很多的时间,有的回答是没有解决的,总之自己实践之后才会更加深刻。

这篇关于[Python]使用Scrapy爬虫框架简单爬取图片并保存本地的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114665

相关文章

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC