Python爬虫,高清美图我全都要!爬取你想要的,嘿嘿嘿

2024-03-14 09:20

本文主要是介绍Python爬虫,高清美图我全都要!爬取你想要的,嘿嘿嘿,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

想必大家都是比较喜欢美女图片吧!没事不要隐瞒了,爱美之心人人皆知。小编也是最近也是比较无聊就爬取了一下了壁纸、图片啥的。于是加上了一些代码,把整个网页的壁纸全部都爬取下来了。

目录一:概览

在电脑上,创建一个文件夹用来存放爬取彼岸桌面的图片

此文件夹下有25个文件夹,对应分类

每个分类文件夹下有若干个文件夹,对应页码

页码文件夹下,存放图片文件

目录二:环境准备

  • 环境准备:怎么使用VSCode编写Python代码?

  • requests:通过http请求获取页面,官方文档

  • lxml:是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

  • Beautiful Soup4:可以从HTML或XML文件中提取数据

在终端中分别输入以下pip命令,安装它们

python -m pip install beautifulsoup4python -m pip install lxmlpython -m pip install requests

  • 注意:光理论是不够的。这里送大家一套2020最新企业Pyhon项目实战视频教程,点击此处 进来获取 跟着练习下,希望大家一起进步哦!

目录三:分析页面结构

  • 因为我的电脑的分辨率为1920 × 1080,所以我爬取的图片的分辨率为此

  • 彼岸桌面壁纸提供了许多分类供我们浏览:日历、动漫、风景、美女、游戏、影视、动态、唯美、设计…

4k分类下的壁纸是该网站收益的重要资源,而且我们有4k壁纸的需求,对其不进行爬取

  • CSS选择器:#header > div.head > ul > li:nth-child(1) > div > a,定位到包裹分类的a标签

我以唯美分类下的壁纸,来讲解接下来怎么爬取图片

1.总共有73页,除了最后一页,每页有18张图片

但是在代码中我们最好需要自动获取总页码,嗯,彼岸桌面壁纸网站的结构是真的舒服,基本上每个页码的HTML结构都是类似的

CSS选择器:div.page a,定位到包裹页码数的a标签,只有6个

并且每页的第三张图片都是一样的广告,需要在代码中把它过滤掉

每个分页的超链接很清晰:http://www.netbian.com/weimei/index_x.htm

x 恰好为该页的页码

注意:在分类下看到的图片是略缩图,分辨率都较低;要得到1920 × 1080分辨率的该图,需要进行两次跳转

以下图为例

在分类页面中我们可以直接获取该图片的url,但很可惜,它的分辨率并不令人满意;通过检查,很明显的看到,在分类页中展示的每一个图片都指向另一个超链接

CSS选择器:div#main div.list ul li a,定位到包裹图片的a标签点击该图片,第一次跳转,转到新的链接,页面中显示有下列内容:

CSS选择器:div#main div.endpage div.pic div.pic-down a,定位到包裹图片的a标签

点击下载壁纸(1920 × 1080)的按钮,第二次跳转,转向一个新的链接,终于达成目的,该链接中显示的图片的分辨率为 1920 × 1080

一波三折,终于给我找到了该图片的1920 × 1080高清图

CSS选择器:div#main table a img,定位到该图片的img标签

经过本人爬取检验,其中有极个别图片由于很多零碎的问题而下载失败,还有少部分图片因为网站虽然提供1920 × 1080分辨率的下载按钮却给了其它分辨率

目录四:代码分析

  • 下文中凡是 加粗内容,请按照我的解释,根据自身情况进行修改

第一步:设置全局变量

index = 'http://www.netbian.com' # 网站根地址interval = 10 # 爬取图片的间隔时间firstDir = 'D:/zgh/Pictures/netbian' # 总路径classificationDict = {} # 存放网站分类子页面的信息

  • index ,要爬取网页的网站根地址,代码中爬取图片需要使用其拼接完整url

  • interval,我们去爬取一个网站的内容时要考虑到该网站服务器的承受能力,短时间内爬取该网站大量内容会给该网站服务器造成巨大压力,我们需要在爬取时设置间隔时间

  • 单位:秒

  • 由于我要爬取彼岸桌面网站的全部高清图片,若集中在短时间内爬取,一方面会给网站服务器巨大的压力,一方面网站服务器会将我们的链接强制断掉,所以我设置的每张图片爬取时间间隔为10秒;如果你只是爬取少量图片,可以将间隔时间设置的短点

  • firstDir,爬取图片存放在你电脑上的根路径;代码中爬取图片时,在一级目录下会按照彼岸桌面唯美分类下的分页页码生成文件夹并存放图片

  • classificationDict,存放网站下分类指向的url、对应的分类文件夹路径

第二步:获取页面筛选后的内容列表

  • 写一个函数,获取页面筛选后的内容数组传进来两个参数url:该网页的urlselect:选择器(与CSS中的选择器无缝对接,我很喜欢,定位到HTML中相应的元素)

  • 返回一个列表

def screen(url, select): html = requests.get(url = url, headers = UserAgent.get_headers()) # 随机获取一个headers html.encoding = 'gbk' html = html.text soup = BeautifulSoup(html, 'lxml') return soup.select(select)

  • headers,作用是假装是个用户访问该网站,为了保证爬虫的成功率,每一次爬取页面随机抽取一个headers

  • encoding ,该网站的编码

第三步:获取全部分类的url

# 将分类子页面信息存放在字典中def init_classification(): url = index select = '#header > div.head > ul > li:nth-child(1) > div > a' classifications = screen(url, select) for c in classifications: href = c.get('href') # 获取的是相对地址 text = c.string # 获取分类名 if(text == '4k壁纸'): # 4k壁纸,因权限问题无法爬取,直接跳过 continue secondDir = firstDir + '/' + text # 分类目录 url = index + href # 分类子页面url global classificationDict classificationDict[text] = { 'path': secondDir, 'url': url }

接下来的代码,我以唯美分类下的壁纸,来讲解怎么通过跳转两次链接爬取高清图片

第四步:获取分类页面下所有分页的url

大部分分类的分页大于等于6页,可以直接使用上面定义的screen函数,select定义为div.page a,然后screen函数返回的列表中第6个元素可以获取我们需要的最后一页页码

但是,有的分类的分页小于6页,比如:

需要重新写一个筛选函数,通过兄弟元素来获取

# 获取页码def screenPage(url, select): html = requests.get(url = url, headers = UserAgent.get_headers()) html.encoding = 'gbk' html = html.text soup = BeautifulSoup(html, 'lxml') return soup.select(select)[0].next_sibling.text

获取分类页面下所有分页的url

url = 'http://www.netbian.com/weimei/'select = '#main > div.page > span.slh'pageIndex = screenPage(secondUrl, select)lastPagenum = int(pageIndex) # 获取最后一页的页码for i in range(lastPagenum): if i == 0: url = 'http://www.netbian.com/weimei/index.htm' else: url = 'http://www.netbian.com/weimei/index_%d.htm' %(i+1)

由于该网站的HTML结构非常清晰,所以代码写起来简单明了

第五步:获取分页下图片所指url

通过检查,可以看到获取到的url为相对地址,需要将其转化为绝对地址

select = 'div#main div.list ul li a'imgUrls = screen(url, select)

通过这两行代码获取的列表中的值,形如此:

星空 女孩 观望 唯美夜景壁纸星空 女孩 观望 唯美夜景壁纸

  • 需要对获取的列表进行处理

  • 获取a标签中的href属性值,并将其转化为绝对地址,这是第一次跳转所需要的url

第六步:定位到 1920 × 1080 分辨率图片

# 定位到 1920 1080 分辨率图片 def handleImgs(links, path): for link in links: href = link.get('href') if(href == 'http://pic.netbian.com/'): # 过滤图片广告 continue # 第一次跳转 if('http://' in href): # 有极个别图片不提供正确的相对地址 url = href else: url = index + href select = 'div#main div.endpage div.pic div.pic-down a' link = screen(url, select) if(link == []): print(url + ' 无此图片,爬取失败') continue href = link[0].get('href') # 第二次跳转 url = index + href # 获取到图片了 select = 'div#main table a img' link = screen(url, select) if(link == []): print(url + " 该图片需要登录才能爬取,爬取失败") continue name = link[0].get('alt').replace('\t', '').replace('|', '').replace(':', '').replace('\\', '').replace('/', '').replace('*', '').replace('?', '').replace('"', '').replace('<', '').replace('>', '') print(name) # 输出下载图片的文件名 src = link[0].get('src') if(requests.get(src).status_code == 404): print(url + ' 该图片下载链接404,爬取失败') print() continue print() download(src, name, path) time.sleep(interval)

第七步:下载图片

# 下载操作def download(src, name, path): if(isinstance(src, str)): response = requests.get(src) path = path + '/' + name + '.jpg' while(os.path.exists(path)): # 若文件名重复 path = path.split(".")[0] + str(random.randint(2, 17)) + '.' + path.split(".")[1] with open(path,'wb') as pic: for chunk in response.iter_content(128): pic.write(chunk)

目录五:代码的容错能力

一:过滤图片广告

if(href == 'http://pic.netbian.com/'): # 过滤图片广告 continue

二:第一次跳转页面,无我们需要的链接

彼岸壁纸网站,对第一次跳转页面的链接,给的都是相对地址

但是极个别图片直接给的绝对地址,而且给的是该分类网址,所以需要做两步处理

if('http://' in href): url = hrefelse: url = index + href...if(link == []): print(url + ' 无此图片,爬取失败') continue

下面是第二次跳转页面所遇问题

三:由于权限问题无法爬取图片

if(link == []): print(url + "该图片需要登录才能爬取,爬取失败") continue

四:获取img的alt,作为下载图片文件的文件名时,名字中携带\t 或 文件名不允许的特殊字符:

  • 在Python中,’\t’ 是转义字符:空格

  • 在windows系统当中的文件命名,文件名称中不能包含 \ / : * ? " < > | 一共9个特殊字符

name = link[0].get(‘alt’).replace(’\t’, ‘’).replace(’|’, ‘’).replace(’:’, ‘’).replace(’\’, ‘’).replace(’/’, ‘’).replace(’*’, ‘’).replace(’?’, ‘’).replace(’"’, ‘’).replace(’<’, ‘’).replace(’>’, ‘’)

五:获取img的alt,作为下载图片文件的文件名时,名字重复

path = path + '/' + name + '.jpg'while(os.path.exists(path)): # 若文件名重复 path = path.split(".")[0] + str(random.randint(2, 17)) + '.' + path.split(".")[1]

六:图片链接404

比如

if(requests.get(src).status_code == 404): print(url + ' 该图片下载链接404,爬取失败') print() continue

目录六:完整代码

  • 蓝奏云链接:Python爬虫,高清美图我全都要(彼岸桌面壁纸).zip下载下来解压后,有两个python文件

最后

动动你们发财的小手,给小编一个关注就是给我最大的动力,谢谢!

推荐我们的Python学习扣qun:784758214 ,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等【PDF,实战源码】,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

这篇关于Python爬虫,高清美图我全都要!爬取你想要的,嘿嘿嘿的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/807945

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

Python QT实现A-star寻路算法

目录 1、界面使用方法 2、注意事项 3、补充说明 用Qt5搭建一个图形化测试寻路算法的测试环境。 1、界面使用方法 设定起点: 鼠标左键双击,设定红色的起点。左键双击设定起点,用红色标记。 设定终点: 鼠标右键双击,设定蓝色的终点。右键双击设定终点,用蓝色标记。 设置障碍点: 鼠标左键或者右键按着不放,拖动可以设置黑色的障碍点。按住左键或右键并拖动,设置一系列黑色障碍点

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目