python3.3.3 爬取图片链接

本文主要是介绍python3.3.3 爬取图片链接，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前几天在网上看了些爬虫视屏，所以自己也亲手试了下，主要是环境搭建比较麻烦，但代码相当简单，接下来开始进行爬虫吧！

第一步，先搭建好环境，我用的是python3.3.3和urllib3。urllib3包需要自己搭建。但安装包需要用到pip工具，这里是其他人写的一篇pip安装的博文，附上链接。
https://www.cnblogs.com/allan-king/p/5445879.html然后是装urllib3包，这个需要到官网下载，附上链接https://pypi.org/project/urllib3/#files，我选的是Wheel类型的。下载到./python3.3.3/Scripts/ 命令行输入

python -m pip install urllib3

安装成功后，就可以导入urllib3包了。第二步，找到一个目标网址，也就是要爬取内容的网页，我选择的是http://www.doutula.com/article/list/?page=1"，我们想从这个网址上爬取图片链接。分析网页html内容后，发现图片链接旁边内容为

data-original="http://img.doutula.com/production/uploads/image//2018/06/21/20180621549184_XsjZBx.gif!dta" data-backup="http://img.doutula.com/production/uploads/image//2018/06/21/20180621549184_XsjZBx.gif!dta" alt="捏脸">

怎样从html内容中提取有用信息呢，想到了正则表达式，以下附上所有源码

import urllib3 	#导入urllib3包
import re		#导入re包#获取网站某页数据
def getText(page_number):#实例化http = urllib3.PoolManager()#访问网站page = http.request('GET',"http://www.doutula.com/article/list/?page="+str(page_number))#处理数据为UTF-8类型字符html = page.data.decode('utf-8')#正则表达式，括号中的为有用数据reg = "data-original=(.*?) data-backup"reg += ".*?"reg += "alt=(.*?)>"#html内容匹配正则表达式page = re.compile(reg)artlist = re.findall(page,html)#循环输出结果列表for arts in artlist:print(arts)#获取第四页数据		
#getText(4)#获取第一页到第100页数据
for i in range(1,101):getText(i)

这篇关于python3.3.3 爬取图片链接的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！