用Python的selenium包从百度图片上爬想要的图片

2023-10-12 18:59

本文主要是介绍用Python的selenium包从百度图片上爬想要的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

selenium包介绍


这是一个可以模拟一个浏览器用脚本语言控制浏览内容的扩展包,使用这样的方法浏览信息,和传统的get、post请求页面内容的方式完全不同,因为浏览器内置的各种组件可以帮你完成最难的动态加载内容的获取,当你真正是一个浏览器的时候,这些都不再是问题。为了使用脚本语言来控制浏览器访问页面,腰围浏览器下载一个驱动,并且驱动所在的位置一定要是系统变量下的位置。这里可以直接放在Python的系统变量所在的位置即可。下面是各种浏览器对应驱动的下载方法,这里引用了一篇charilia1的博文,里面有常用的浏览器的驱动。

https://blog.csdn.net/weixin_40438563/article/details/78683297

下载完驱动之后还要在Python中安装selenium包,可以用pip的方法来安装,也可以自己下载安装,地址在上面引用的文章中也有提到。我拿出呢个了这些之后环境就算配置好了。

打开一个页面

以谷歌浏览器为例,下面在Python的idle中输入以下命令:

from selenium import webdriver
driver = webdriver.Chrome()

如果环境配置成功,你的浏览器将被自动打开,显示一个空白界面,如下图:

下面就进入正题,开始从百度图片获取高清图片。

入口url解析

首先打开百度图片的首页随便搜索一个关键词,比如“selenium”,按回车,得到一个新的界面。界面的URL如下:

https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1536570134770_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=selenium

分析URL中的这么多组成部分中可以看到最后有一个叫“word”的部分,这个肯定是我们搜索的关键词了。然后再看之前的部分,开头的域名肯定是必要的,那么中间的那么多看不懂的内容有没有用呢?我们不妨一个个删除试试,最终得到不能再搜段的入口页面的url如下:

https://image.baidu.com/search/index?tn=baiduimage&word=selenium

然后我们试着用打开的浏览器来访问这个url,在idle中输入日下命令:

url = "https://image.baidu.com/search/index?tn=baiduimage&word=selenium"
driver.get(url)

此时空白的浏览器就显示了百度图片搜索selenium的结果如下图:

寻找图片链接:

下面要做的就是爬虫的基本功了,在网页的源码中找图片的高请链接,按F12打开开发者选项,可以找到这样一个链接:

鼠标放在上面会看到这是一张缩略图的地址,复制链接查看,图片地址是加密,并不是我们想要的,所以点击图片进入另一个页面,再去查找,在大图的背后找到了同一张图片的另一个连接,如下:

复制这个链接在查看,bingo。接下来就要写代码,批量获取图片地址了。

批量获取图片链接

思路是这样的,因为百度图片的查看大图页面的翻页链接是高度加密的,很难用get方法在页面中获取到翻页链接,另外,进入查看大图的页面上也很难获取到大图的链接,与其破解加密方法,还不如等待网页自己加载完全了再去获取链接,这就是selenium方法的无可比拟的优势,你所有在浏览器上看到的内容肯定都可以下载。所以方法就是首先搜索主题,然后模拟点击进入大图页面,然后{获取连接,模拟点击翻页}做循环。获取一定数量的图片就可以了。下面是代码:

from selenium import webdriver
import time
import os
import lxml
import lxml.html
import cssselect
from lxml import etree
import re
import numpy
from urllib import request
from urllib import parse# get方法打开一个连接
def url_open(url):res = request.Request(url)res.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")html = request.urlopen(res,timeout = 60).read()return html# 隐式打开一个浏览器
def open_Explor():options = webdriver.ChromeOptions()options.add_argument('headless')driver = webdriver.Chrome(chrome_options=options)return driver
##保存图片到本地
def save(url):html = url_open(url)name = url[len(url)-15:len(url)]with open(name, "wb") as p:p.write(html)p.close()# 主函数
def main(key,type = 0,n = 20):#key:搜索关键词,type:图片尺寸类型,n:下载图片数量
#这里加入两个参数用来筛选图片的尺寸size = ["",                   ##任意尺寸"&width=1920&height=1080",##电脑壁纸"&width=2560&height=1440",##手机壁纸]# 网页链接中不能出现中文,所以要对关键词进行转码,用到了quote函数。key_word = parse.quote(str(key))# 设置路径到桌面,这里要根据电脑做修改os.chdir('C:/Users/lenovo/Desktop/')# 在新设路径下建立文件夹,一搜索关键词命名os.mkdir(key)# 设置路径到新建文件夹os.chdir('C:/Users/lenovo/Desktop/' + key)# 拼接起始页面地址url = "https://image.baidu.com/search/index?tn=baiduimage&word=" + key_word + size[type]# 打开浏览器并访问起始页driver = open_Explor()driver.get(url)# 进入大图页面页面,这里有两点注意,第一点是百度图片搜索之后会有广告图片在前# 几张,点击进入的是一个广告页,所以从第十张图片开始下载。第二点是起始页地址# 的xpath还有一种不常见的形式,放在except中。另xpath可以用谷歌开发者工具# 复制得到,然后再做小修改即可。try:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/a')except:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/div[1]/a')next_url = hre.get_attribute("href")driver.get(next_url)# 循环获取图片链接并下载图片for num in range(0,n):time.sleep(1)#等待网页加载,很必要,不然无法获取到新页面源代码html = driver.page_source#获取网页源码a = re.findall(r'src="([^<]+?\.jpg)',html)#正则获取图片地址if 'baidu' in a[0]:#这里的选择由页面细节决定,不介绍,想了解的可以用debug模式看一下。url = a[0].replace("amp;",'')save(url)print(num+1,"存入成功")else:print(num + 1, "存入失败")driver.find_element_by_xpath('//*[@id="container"]/span[2]').click()#翻到下一页print("完成!")key = input("请输入搜索关键词")
type = int(input("请输入大小信息"))
num = int(input("下载多少张?"))
main(key = key,type = type,n= num)

以上代码可以在idle中直接运行,输入对应的参数即可直接获取到想要的图片。不过话说回来,这种方法虽然万能,不用考录加密和动态加载问题,但是有一点,速度会相对较慢,而且由于网速的问题,网页动态加载的部分太慢也会有问题。所以有志于深度页面爬取的同学一定要花时间研究网页的js方法。
以上内容为摸索得到,如有不当,请指出,定虚心接受。

这篇关于用Python的selenium包从百度图片上爬想要的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/197811

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

Android 10.0 mtk平板camera2横屏预览旋转90度横屏拍照图片旋转90度功能实现

1.前言 在10.0的系统rom定制化开发中,在进行一些平板等默认横屏的设备开发的过程中,需要在进入camera2的 时候,默认预览图像也是需要横屏显示的,在上一篇已经实现了横屏预览功能,然后发现横屏预览后,拍照保存的图片 依然是竖屏的,所以说同样需要将图片也保存为横屏图标了,所以就需要看下mtk的camera2的相关横屏保存图片功能, 如何实现实现横屏保存图片功能 如图所示: 2.mtk