本文主要是介绍python3.3.3 爬取图片链接,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前几天在网上看了些爬虫视屏,所以自己也亲手试了下,主要是环境搭建比较麻烦,但代码相当简单,接下来开始进行爬虫吧!
第一步,先搭建好环境,我用的是python3.3.3和urllib3。urllib3包需要自己搭建。但安装包需要用到pip工具,这里是其他人写的一篇pip安装的博文,附上链接。
https://www.cnblogs.com/allan-king/p/5445879.html然后是装urllib3包,这个需要到官网下载,附上链接https://pypi.org/project/urllib3/#files,我选的是Wheel类型的。下载到./python3.3.3/Scripts/ 命令行输入
python -m pip install urllib3
安装成功后,就可以导入urllib3包了。第二步,找到一个目标网址,也就是要爬取内容的网页,我选择的是http://www.doutula.com/article/list/?page=1",我们想从这个网址上爬取图片链接。分析网页html内容后,发现图片链接旁边内容为
data-original="http://img.doutula.com/production/uploads/image//2018/06/21/20180621549184_XsjZBx.gif!dta" data-backup="http://img.doutula.com/production/uploads/image//2018/06/21/20180621549184_XsjZBx.gif!dta" alt="捏脸">
怎样从html内容中提取有用信息呢,想到了正则表达式,以下附上所有源码
import urllib3 #导入urllib3包
import re #导入re包#获取网站某页数据
def getText(page_number):#实例化http = urllib3.PoolManager()#访问网站page = http.request('GET',"http://www.doutula.com/article/list/?page="+str(page_number))#处理数据为UTF-8类型字符html = page.data.decode('utf-8')#正则表达式,括号中的为有用数据reg = "data-original=(.*?) data-backup"reg += ".*?"reg += "alt=(.*?)>"#html内容匹配正则表达式page = re.compile(reg)artlist = re.findall(page,html)#循环输出结果列表for arts in artlist:print(arts)#获取第四页数据
#getText(4)#获取第一页到第100页数据
for i in range(1,101):getText(i)
这篇关于python3.3.3 爬取图片链接的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!