爬虫剑谱第八页(爬取糗图百科图片)

2023-10-22 11:50

本文主要是介绍爬虫剑谱第八页(爬取糗图百科图片),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

效果图:

首先准备第三库:
 

import requests
import re
import os

request:用于请求网页获取数据

re:正则表达式

os:操作文件

创建一个文件夹:

# 创建一个文件夹,用于保存爬取的图片
if not os.path.exists('./糗图百科'):os.mkdir('./糗图百科')

设置url以及和header头

url = "https://www.qiushibaike.com/imgrank/page/%d/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"
}

header头用于伪装爬虫,防止反爬机制检测

遍历每一个网页

for num in range(1, 5):new_url = format(url % num)repons = requests.get(url=new_url, headers=headers).text# text(字符串) json()(对象类型) content(二进制)# 使用聚焦爬虫对页面进行数据解析ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex, repons, re.S)

 获取每一个网页的源码并进行数据解析

通过正则表达式获取到每一页的所有图片链接

对每一页每一张图片进行永久化保存

    for soc in img_src_list:soc = 'https:' + soc# 请求图片的二进制数据img_soc = requests.get(url=soc, headers=headers).content# 生成图片名称img_name = soc.split('/')[-1]# 图片储存的路径imgPath = './糗图百科/' + img_namewith open(imgPath, 'wb') as fp:fp.write(img_soc)print(img_name + "下载成功!")# i += 1

完整代码:

import requests
import re
import osi = 1
# 创建一个文件夹,用于保存爬取的图片
if not os.path.exists('./糗图百科'):os.mkdir('./糗图百科')
url = "https://www.qiushibaike.com/imgrank/page/%d/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"
}for num in range(1, 5):new_url = format(url % num)repons = requests.get(url=new_url, headers=headers).text# text(字符串) json()(对象类型) content(二进制)# 使用聚焦爬虫对页面进行数据解析ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex, repons, re.S)for soc in img_src_list:soc = 'https:' + soc# 请求图片的二进制数据img_soc = requests.get(url=soc, headers=headers).content# 生成图片名称img_name = soc.split('/')[-1]# 图片储存的路径imgPath = './糗图百科/' + img_namewith open(imgPath, 'wb') as fp:fp.write(img_soc)print(img_name + "下载成功!")# i += 1
print("爬取完成")

这篇关于爬虫剑谱第八页(爬取糗图百科图片)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/261260

相关文章

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

利用Python脚本实现批量将图片转换为WebP格式

《利用Python脚本实现批量将图片转换为WebP格式》Python语言的简洁语法和库支持使其成为图像处理的理想选择,本文将介绍如何利用Python实现批量将图片转换为WebP格式的脚本,WebP作为... 目录简介1. python在图像处理中的应用2. WebP格式的原理和优势2.1 WebP格式与传统

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

使用Python实现base64字符串与图片互转的详细步骤

《使用Python实现base64字符串与图片互转的详细步骤》要将一个Base64编码的字符串转换为图片文件并保存下来,可以使用Python的base64模块来实现,这一过程包括解码Base64字符串... 目录1. 图片编码为 Base64 字符串2. Base64 字符串解码为图片文件3. 示例使用注意

c/c++的opencv实现图片膨胀

《c/c++的opencv实现图片膨胀》图像膨胀是形态学操作,通过结构元素扩张亮区填充孔洞、连接断开部分、加粗物体,OpenCV的cv::dilate函数实现该操作,本文就来介绍一下opencv图片... 目录什么是图像膨胀?结构元素 (KerChina编程nel)OpenCV 中的 cv::dilate() 函