用Python的selenium包从百度图片上爬想要的图片

2023-10-12 18:59

本文主要是介绍用Python的selenium包从百度图片上爬想要的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

selenium包介绍


这是一个可以模拟一个浏览器用脚本语言控制浏览内容的扩展包,使用这样的方法浏览信息,和传统的get、post请求页面内容的方式完全不同,因为浏览器内置的各种组件可以帮你完成最难的动态加载内容的获取,当你真正是一个浏览器的时候,这些都不再是问题。为了使用脚本语言来控制浏览器访问页面,腰围浏览器下载一个驱动,并且驱动所在的位置一定要是系统变量下的位置。这里可以直接放在Python的系统变量所在的位置即可。下面是各种浏览器对应驱动的下载方法,这里引用了一篇charilia1的博文,里面有常用的浏览器的驱动。

https://blog.csdn.net/weixin_40438563/article/details/78683297

下载完驱动之后还要在Python中安装selenium包,可以用pip的方法来安装,也可以自己下载安装,地址在上面引用的文章中也有提到。我拿出呢个了这些之后环境就算配置好了。

打开一个页面

以谷歌浏览器为例,下面在Python的idle中输入以下命令:

from selenium import webdriver
driver = webdriver.Chrome()

如果环境配置成功,你的浏览器将被自动打开,显示一个空白界面,如下图:

下面就进入正题,开始从百度图片获取高清图片。

入口url解析

首先打开百度图片的首页随便搜索一个关键词,比如“selenium”,按回车,得到一个新的界面。界面的URL如下:

https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1536570134770_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=selenium

分析URL中的这么多组成部分中可以看到最后有一个叫“word”的部分,这个肯定是我们搜索的关键词了。然后再看之前的部分,开头的域名肯定是必要的,那么中间的那么多看不懂的内容有没有用呢?我们不妨一个个删除试试,最终得到不能再搜段的入口页面的url如下:

https://image.baidu.com/search/index?tn=baiduimage&word=selenium

然后我们试着用打开的浏览器来访问这个url,在idle中输入日下命令:

url = "https://image.baidu.com/search/index?tn=baiduimage&word=selenium"
driver.get(url)

此时空白的浏览器就显示了百度图片搜索selenium的结果如下图:

寻找图片链接:

下面要做的就是爬虫的基本功了,在网页的源码中找图片的高请链接,按F12打开开发者选项,可以找到这样一个链接:

鼠标放在上面会看到这是一张缩略图的地址,复制链接查看,图片地址是加密,并不是我们想要的,所以点击图片进入另一个页面,再去查找,在大图的背后找到了同一张图片的另一个连接,如下:

复制这个链接在查看,bingo。接下来就要写代码,批量获取图片地址了。

批量获取图片链接

思路是这样的,因为百度图片的查看大图页面的翻页链接是高度加密的,很难用get方法在页面中获取到翻页链接,另外,进入查看大图的页面上也很难获取到大图的链接,与其破解加密方法,还不如等待网页自己加载完全了再去获取链接,这就是selenium方法的无可比拟的优势,你所有在浏览器上看到的内容肯定都可以下载。所以方法就是首先搜索主题,然后模拟点击进入大图页面,然后{获取连接,模拟点击翻页}做循环。获取一定数量的图片就可以了。下面是代码:

from selenium import webdriver
import time
import os
import lxml
import lxml.html
import cssselect
from lxml import etree
import re
import numpy
from urllib import request
from urllib import parse# get方法打开一个连接
def url_open(url):res = request.Request(url)res.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")html = request.urlopen(res,timeout = 60).read()return html# 隐式打开一个浏览器
def open_Explor():options = webdriver.ChromeOptions()options.add_argument('headless')driver = webdriver.Chrome(chrome_options=options)return driver
##保存图片到本地
def save(url):html = url_open(url)name = url[len(url)-15:len(url)]with open(name, "wb") as p:p.write(html)p.close()# 主函数
def main(key,type = 0,n = 20):#key:搜索关键词,type:图片尺寸类型,n:下载图片数量
#这里加入两个参数用来筛选图片的尺寸size = ["",                   ##任意尺寸"&width=1920&height=1080",##电脑壁纸"&width=2560&height=1440",##手机壁纸]# 网页链接中不能出现中文,所以要对关键词进行转码,用到了quote函数。key_word = parse.quote(str(key))# 设置路径到桌面,这里要根据电脑做修改os.chdir('C:/Users/lenovo/Desktop/')# 在新设路径下建立文件夹,一搜索关键词命名os.mkdir(key)# 设置路径到新建文件夹os.chdir('C:/Users/lenovo/Desktop/' + key)# 拼接起始页面地址url = "https://image.baidu.com/search/index?tn=baiduimage&word=" + key_word + size[type]# 打开浏览器并访问起始页driver = open_Explor()driver.get(url)# 进入大图页面页面,这里有两点注意,第一点是百度图片搜索之后会有广告图片在前# 几张,点击进入的是一个广告页,所以从第十张图片开始下载。第二点是起始页地址# 的xpath还有一种不常见的形式,放在except中。另xpath可以用谷歌开发者工具# 复制得到,然后再做小修改即可。try:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/a')except:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/div[1]/a')next_url = hre.get_attribute("href")driver.get(next_url)# 循环获取图片链接并下载图片for num in range(0,n):time.sleep(1)#等待网页加载,很必要,不然无法获取到新页面源代码html = driver.page_source#获取网页源码a = re.findall(r'src="([^<]+?\.jpg)',html)#正则获取图片地址if 'baidu' in a[0]:#这里的选择由页面细节决定,不介绍,想了解的可以用debug模式看一下。url = a[0].replace("amp;",'')save(url)print(num+1,"存入成功")else:print(num + 1, "存入失败")driver.find_element_by_xpath('//*[@id="container"]/span[2]').click()#翻到下一页print("完成!")key = input("请输入搜索关键词")
type = int(input("请输入大小信息"))
num = int(input("下载多少张?"))
main(key = key,type = type,n= num)

以上代码可以在idle中直接运行,输入对应的参数即可直接获取到想要的图片。不过话说回来,这种方法虽然万能,不用考录加密和动态加载问题,但是有一点,速度会相对较慢,而且由于网速的问题,网页动态加载的部分太慢也会有问题。所以有志于深度页面爬取的同学一定要花时间研究网页的js方法。
以上内容为摸索得到,如有不当,请指出,定虚心接受。

这篇关于用Python的selenium包从百度图片上爬想要的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/197811

相关文章

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

Python安装时常见报错以及解决方案

《Python安装时常见报错以及解决方案》:本文主要介绍在安装Python、配置环境变量、使用pip以及运行Python脚本时常见的错误及其解决方案,文中介绍的非常详细,需要的朋友可以参考下... 目录一、安装 python 时常见报错及解决方案(一)安装包下载失败(二)权限不足二、配置环境变量时常见报错及

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(