【Python/crawl】如何使用Python爬虫将一系列网页上的同类图片下载到本地

本文主要是介绍【Python/crawl】如何使用Python爬虫将一系列网页上的同类图片下载到本地,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【需求】

从网页https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html

开始,有十七页,每页都有大漂亮“小濑田麻由”的若干图片,想要将其下载到本地。

如果手工一张张右键另存为比较麻烦,想用程序自动下载下来。

【思路】

17张网页地址都是连续的,可以用基准网址+页码的形式拼出每个网页。

得到具体每页的网址后,可发起网络请求得到其html内容,再用BeautifulSoup去解析,把包含图片的img标签拿下来,从标签的src属性获取图片的真实地址。

有了图片的真实地址后,就可以发起网络请求获得相应,然后把相应内容存成二进制文件。

流程图

【代码】

#encoding=utf-8# 内置网络访问包
import requests# 内置的urllib.request模块
import urllib.request# 解析html的BeautifulSoup包,安装方法是pip install BeautifulSoup4
from bs4 import BeautifulSoup# 引入正则表达式包
import re# 把请求伪装成浏览器Mozilla
user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)'
headers={'User-Agent':user_agent}# 以下两个变量需要手工修改
# 去除了页码的基准地址,这个地址需要自己拷贝粘贴过来
page_raw_url="https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/"
# 共有多少页,注意17不是死值,是需要自己看究竟有多少页然后修改的
page_count=17# 准备一个列表,用以放入文件名和地址组成的字典
jpglist=[]# 循环组合每页具体地址
for i in range(page_count):# 以粗地址和序号,重新组合每页的地址url=page_raw_url+str(i+1)# 发起请求获取其html内容html=requests.get(url,headers=headers)# 使用BeautifulSoup解析html文本soup= BeautifulSoup(html.text,'html.parser');jpg_count=0;# 查找html文本中img标签,指定其class是aligncenter,这个规律需要自己看网页源码探究出来!for img in soup.find_all('img',class_="aligncenter"):# 获取img的实际地址addr=img.get("src")# 使用正则表达式劈分文本parts = re.split(r'[/]', addr)# 最后一项即文件名filename=parts[-1]# 因为此法获取的文件名有两种:png和jpg,png是不需要的,故过滤掉if filename.endswith(".jpg"):# 准备字典,字典中包含地址和文件名两项dic={}dic['address']=addrdic['filename']=filename# 把字典放入列表jpglist.append(dic)jpg_count=jpg_count+1# 打印每页发现多少图片print("找到"+str(jpg_count)+"张靓照于网址:"+url)# 用len函数取得jpglist列表的总个数,打印出来
print("共找到"+str(len(jpglist))+"张靓照.")# 遍历列表,其中每一项是个字典
sn=0
for dic in jpglist:#print(dic['filename']+"_"+dic['address'])with urllib.request.urlopen(dic['address']) as response:data=response.read()filename=dic['filename']# write binary filesn=sn+1with open(filename,'wb') as f:f.write(data)print(str(sn)+"."+filename+" 已下载到本地.")print("全部靓照下载完成!")

【运行情况】

C:\hy\py>python 05-findallpic.py
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/1
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/2
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/3
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/4
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/5
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/6
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/7
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/8
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/9
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/10
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/11
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/12
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/13
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/14
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/15
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/16
找到4张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/17
共找到100张靓照.
1.p1682-0628-89533.jpg 已下载到本地.
2.p1682-0628-89534.jpg 已下载到本地.
3.p1682-0628-89535.jpg 已下载到本地.
4.p1682-0629-89536.jpg 已下载到本地.
5.p1682-0629-89537.jpg 已下载到本地.
6.p1682-0629-89538.jpg 已下载到本地.
7.p1682-0629-89539.jpg 已下载到本地.
8.p1682-0630-89540.jpg 已下载到本地.
9.p1682-0630-89541.jpg 已下载到本地.
10.p1682-0631-89542.jpg 已下载到本地.
11.p1682-0631-89543.jpg 已下载到本地.
12.p1682-0631-89544.jpg 已下载到本地.
13.p1682-0631-89545.jpg 已下载到本地.
14.p1682-0631-89546.jpg 已下载到本地.
15.p1682-0631-89547.jpg 已下载到本地.
16.p1682-0632-89548.jpg 已下载到本地.
17.p1682-0632-89549.jpg 已下载到本地.
18.p1682-0632-89550.jpg 已下载到本地.
19.p1682-0632-89551.jpg 已下载到本地.
20.p1682-0632-89552.jpg 已下载到本地.
21.p1682-0633-89553.jpg 已下载到本地.
22.p1682-0633-89554.jpg 已下载到本地.
23.p1682-0633-89555.jpg 已下载到本地.
24.p1682-0633-89556.jpg 已下载到本地.
25.p1682-0633-89557.jpg 已下载到本地.
26.p1682-0633-89558.jpg 已下载到本地.
27.p1682-0634-89559.jpg 已下载到本地.
28.p1682-0634-89560.jpg 已下载到本地.
29.p1682-0634-89561.jpg 已下载到本地.
30.p1682-0634-89562.jpg 已下载到本地.
31.p1682-0634-89563.jpg 已下载到本地.
32.p1682-0634-89564.jpg 已下载到本地.
33.p1682-0635-89565.jpg 已下载到本地.
34.p1682-0635-89566.jpg 已下载到本地.
35.p1682-0635-89567.jpg 已下载到本地.
36.p1682-0635-89568.jpg 已下载到本地.
37.p1682-0636-89569.jpg 已下载到本地.
38.p1682-0636-89570.jpg 已下载到本地.
39.p1682-0636-89571.jpg 已下载到本地.
40.p1682-0636-89572.jpg 已下载到本地.
41.p1682-0636-89573.jpg 已下载到本地.
42.p1682-0636-89574.jpg 已下载到本地.
43.p1682-0636-89575.jpg 已下载到本地.
44.p1682-0637-89576.jpg 已下载到本地.
45.p1682-0637-89577.jpg 已下载到本地.
46.p1682-0637-89578.jpg 已下载到本地.
47.p1682-0637-89579.jpg 已下载到本地.
48.p1682-0637-89580.jpg 已下载到本地.
49.p1682-0638-89581.jpg 已下载到本地.
50.p1682-0638-89582.jpg 已下载到本地.
51.p1682-0638-89583.jpg 已下载到本地.
52.p1682-0638-89584.jpg 已下载到本地.
53.p1682-0639-89585.jpg 已下载到本地.
54.p1682-0639-89586.jpg 已下载到本地.
55.p1682-0639-89587.jpg 已下载到本地.
56.p1682-0639-89588.jpg 已下载到本地.
57.p1682-0639-89589.jpg 已下载到本地.
58.p1682-0639-89590.jpg 已下载到本地.
59.p1682-0640-89591.jpg 已下载到本地.
60.p1682-0640-89596.jpg 已下载到本地.
61.p1682-0640-89604.jpg 已下载到本地.
62.p1682-0640-89609.jpg 已下载到本地.
63.p1682-0641-89621.jpg 已下载到本地.
64.p1682-0641-89623.jpg 已下载到本地.
65.p1682-0641-89627.jpg 已下载到本地.
66.p1682-0642-89634.jpg 已下载到本地.
67.p1682-0642-89641.jpg 已下载到本地.
68.p1682-0642-89649.jpg 已下载到本地.
69.p1682-0643-89652.jpg 已下载到本地.
70.p1682-0643-89654.jpg 已下载到本地.
71.p1682-0643-89657.jpg 已下载到本地.
72.p1682-0643-89664.jpg 已下载到本地.
73.p1682-0643-89666.jpg 已下载到本地.
74.p1682-0643-89669.jpg 已下载到本地.
75.p1682-0644-89671.jpg 已下载到本地.
76.p1682-0644-89675.jpg 已下载到本地.
77.p1682-0644-89677.jpg 已下载到本地.
78.p1682-0644-89679.jpg 已下载到本地.
79.p1682-0645-89680.jpg 已下载到本地.
80.p1682-0645-89682.jpg 已下载到本地.
81.p1682-0645-89683.jpg 已下载到本地.
82.p1682-0645-89684.jpg 已下载到本地.
83.p1682-0645-89685.jpg 已下载到本地.
84.p1682-0645-89687.jpg 已下载到本地.
85.p1682-0646-89689.jpg 已下载到本地.
86.p1682-0646-89691.jpg 已下载到本地.
87.p1682-0646-89692.jpg 已下载到本地.
88.p1682-0646-89694.jpg 已下载到本地.
89.p1682-0646-89696.jpg 已下载到本地.
90.p1682-0646-89698.jpg 已下载到本地.
91.p1682-0647-89701.jpg 已下载到本地.
92.p1682-0647-89703.jpg 已下载到本地.
93.p1682-0647-89705.jpg 已下载到本地.
94.p1682-0647-89706.jpg 已下载到本地.
95.p1682-0648-89707.jpg 已下载到本地.
96.p1682-0648-89709.jpg 已下载到本地.
97.p1682-0648-89710.jpg 已下载到本地.
98.p1682-0648-89711.jpg 已下载到本地.
99.p1682-0648-89712.jpg 已下载到本地.
100.p1682-0649-89713.jpg 已下载到本地.
全部靓照下载完成!

【运行结果】

检查发现,所有图片确实如愿被下载到了本地。程序如果修改基准网址和页码范围,也能用到同网站的其它人的照片上。

END

这篇关于【Python/crawl】如何使用Python爬虫将一系列网页上的同类图片下载到本地的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/808463

相关文章

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

Java中StopWatch的使用示例详解

《Java中StopWatch的使用示例详解》stopWatch是org.springframework.util包下的一个工具类,使用它可直观的输出代码执行耗时,以及执行时间百分比,这篇文章主要介绍... 目录stopWatch 是org.springframework.util 包下的一个工具类,使用它

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

springboot security使用jwt认证方式

《springbootsecurity使用jwt认证方式》:本文主要介绍springbootsecurity使用jwt认证方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录前言代码示例依赖定义mapper定义用户信息的实体beansecurity相关的类提供登录接口测试提供一

go中空接口的具体使用

《go中空接口的具体使用》空接口是一种特殊的接口类型,它不包含任何方法,本文主要介绍了go中空接口的具体使用,具有一定的参考价值,感兴趣的可以了解一下... 目录接口-空接口1. 什么是空接口?2. 如何使用空接口?第一,第二,第三,3. 空接口几个要注意的坑坑1:坑2:坑3:接口-空接口1. 什么是空接

springboot security快速使用示例详解

《springbootsecurity快速使用示例详解》:本文主要介绍springbootsecurity快速使用示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录创www.chinasem.cn建spring boot项目生成脚手架配置依赖接口示例代码项目结构启用s

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2