Python爬虫从入门到精通:(5)数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥

本文主要是介绍Python爬虫从入门到精通:(5)数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我们先来看下如何爬取图片数据?

  • 方式1:基于requests

  • 方式2:基于urllib

    urllib模块作用和requests模块一样,都是基于网络请求的模块

    requests问世后就迅速的替代了urllib模块

比如,我们现在准备爬取这张可爱的熊熊。
在这里插入图片描述

先右键复制图片地址:

img_url = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic21.nipic.com%2F20120606%2F5137861_093119370162_2.jpg&refer=http%3A%2F%2Fpic21.nipic.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1634794705&t=162f415928fef44dc6fb006639dd034d'

requests方式:

response = requests.get(url=img_url, headers=headers)
img_data = response.content  # content返回的是二进制形式的响应数据
with open('1.jpg', 'wb') as f:f.write(img_data)

urllib方式:

# 可以直接对url发起请求并且进行持久化存储
urllib.request.urlretrieve(img_url, './2.jpg')

上述两种爬起图片的操作不同之处是什么?

使用urllib的方式爬取图片无法进行UA伪装,而requests的方式可以。不需要UA伪装的情况下,使用urllib下载图片更方便!


使用正则批量爬取校花网中的图片数据
在这里插入图片描述

url = http://www.521609.com/daxuexiaohua

操作:需要将每一张图片的地址解析出来,然后对图片地址发起请求即可

写代码之前,我们先再来了解下 浏览器开发者工具

分析浏览器开发者工具中Elements和network这两个选项卡对应的页面源码数据有何不同之处?

  • Elements中包含的显示的页面源码数据为当前页面所有的数据加载完毕后对应的完整页面源码数据(包含了动态加载数据)

  • network中显示的页面源码数据仅仅为某一个单独的请求对应的响应数据(不包含动态加载数据)

在这里插入图片描述

结论:如果在进行数据解析的时候,一定是需要对页面布局进行分析,如果当前网站没有动态加载的数据就可以直接使用Elements对页面布局进行分析。否则只可以使用network对页面数据进行分析。

写代码之前

我们需要使用Elements捕获出图片地址,可以看到图片地址在源码里的<li>节点里:

在这里插入图片描述

复制<li>节点里的源码:

在这里插入图片描述

<li><a href="/daxuexiaohua/11124.html"><img src="/uploads/allimg/140717/1-140GF92J7-lp.jpg" width="160" height="220" border="0" alt=" 中国传媒大学上官青桐 "></a><br><a href="/daxuexiaohua/11124.html" class="title"><b>中国传媒大学上官青桐</b></a>
</li>

现在开始写代码:(咱们课程主要讲解爬虫的抓包方式和解析方法,具体正则写法等基础教程,可以自行先去学习)

import re
import os# 1.捕获到当前首页的页面源码数据
url1 = 'http://www.521609.com/daxuexiaohua'
page_text = requests.get(url=url1, headers=headers).text# 2.从当前获取的页面源码数据中解析出图片地址,并用正则写出:
ex = '<li>.*?<img src="(.*?)" width=.*?</li>'# 正则写好后我们现在开始获取
img_src_list = re.findall(ex, page_text)
print(img_src_list)
# 我们发现打印的是[]。这是因为源码里有空格和换行
# 代码应该是:
img_src_list = re.findall(ex, page_text, re.S)
print(img_src_list)
# 现在我们看出获取的地址只是部分,例:'/uploads/allimg/140717/1-140GF92J7-lp.jpg'
# 我们可以直接在网页上复制图片地址'http://www.521609.com/uploads/allimg/140717/1-140GF92J7-lp.jpg'
# 加上前缀,遍历列表,获取完整地址.进行请求# 新建个文件夹存储图片
dirName = 'ImgLibs'
if not os.path.exists(dirName):os.mkdir(dirName)for src in img_src_list:src = 'http://www.521609.com' + srcimgPath = dirName + '/' + src.split('/')[-1]  # 图片名称urllib.request.urlretrieve(src, imgPath)print(imgPath, '下载成功!!!')

结果我们就看到了许多小姐姐照片了!

在这里插入图片描述

这篇关于Python爬虫从入门到精通:(5)数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/817407

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

vue使用docxtemplater导出word

《vue使用docxtemplater导出word》docxtemplater是一种邮件合并工具,以编程方式使用并处理条件、循环,并且可以扩展以插入任何内容,下面我们来看看如何使用docxtempl... 目录docxtemplatervue使用docxtemplater导出word安装常用语法 封装导出方

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.