爬虫中请求图片链接不正确的解决办法

2023-11-23 18:59

本文主要是介绍爬虫中请求图片链接不正确的解决办法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题解决

  在爬取站长之家的图片的时候遇到一个问题,解析图片的src属性之后得到的链接不正确,用代码解析出来全都是这样的
在这里插入图片描述
可是在网页结构中查看明明是正确的
在这里插入图片描述

  那这对于一个小白来说就有点手足无措了,可是凭借我敏锐的洞察力发现里面有个属性"data-original"里面存的值和src里面的一模一样,紧接着我把代码中解析src属性更改成"data-original"之后就成功了,此时拿到图片链接的问题是解决了,那么作为一个日后想成为爬虫大佬的"坤"就必须了解这是为什么弄明白其中的原理

问题原因-懒加载


什么是懒加载呢?对于前端开发者来说一定不陌生

  • 懒加载(Lazy Loading)是一种页面优化技术,它延迟加载网页上的某些部分,以加速网页的加载速度和提高性能。
  • 在使用懒加载技术时,网页只会在用户需要访问它们时才会加载相关的资源,而不是一次性将所有资源都加载出来。比如,在使用懒加载技术的图片网站上,只有当用户滚动到页面上的某一部分时,该部分的图片才会开始加载。
  • 懒加载的优点包括:减少加载时间,提高网页性能,减小页面文件体积,降低带宽成本,减少服务器压力,提高用户体验等

  以上是官方解释,大白话说就是请求网页的时候先不加载图片或者一些资源文件,只有当用户看到的时候再加载,这无疑提高了网站的访问速度,用户体验等等,对于用户和网站的开发者来说这个技术百利无一害,但是苦了咱这些爬虫的人
  所以此时原因就是因为这个懒加载技术,图片没加载的时候是没有src属性的,但是网站的开发者一般会将图片的链接先放在其他自定义属性之中,我们只需要解析这个属性即可

实例

这次爬的网站"站长之家": https://sc.chinaz.com/tupian/jianzhutupian.html

import requests
from lxml import etree
url = "https://sc.chinaz.com/tupian/jianzhutupian.html"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.50"
}
resp = requests.get(url,headers).content.decode('utf-8')et = etree.HTML(resp)img_list = et.xpath('//div[contains(@class,"tupian-list")]/div[contains(@class,"item")]/img')for img in img_list:#原始图片地址img_src = img.xpath('./@data-original')[0]print(img_src)#拼接替换成高清图片地址gq_src = "https:"+img_src.replace('scpic3','tppic').replace('s','big').replace('filebig','files').replace('imgbig','imgs')#获取图片名称title = img.xpath('./@alt')[0].replace("图片","")#获取图片二进制流byte_img = requests.get(gq_src,headers).contentfp = open('img'+title+".jpg",'wb')fp.write(byte_img)print(title,'下载完毕!!')
希望各位看完有所收获

这篇关于爬虫中请求图片链接不正确的解决办法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/420054

相关文章

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

golang1.23版本之前 Timer Reset方法无法正确使用

《golang1.23版本之前TimerReset方法无法正确使用》在Go1.23之前,使用`time.Reset`函数时需要先调用`Stop`并明确从timer的channel中抽取出东西,以避... 目录golang1.23 之前 Reset ​到底有什么问题golang1.23 之前到底应该如何正确的

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Spring常见错误之Web嵌套对象校验失效解决办法

《Spring常见错误之Web嵌套对象校验失效解决办法》:本文主要介绍Spring常见错误之Web嵌套对象校验失效解决的相关资料,通过在Phone对象上添加@Valid注解,问题得以解决,需要的朋... 目录问题复现案例解析问题修正总结  问题复现当开发一个学籍管理系统时,我们会提供了一个 API 接口去

Java后端接口中提取请求头中的Cookie和Token的方法

《Java后端接口中提取请求头中的Cookie和Token的方法》在现代Web开发中,HTTP请求头(Header)是客户端与服务器之间传递信息的重要方式之一,本文将详细介绍如何在Java后端(以Sp... 目录引言1. 背景1.1 什么是 HTTP 请求头?1.2 为什么需要提取请求头?2. 使用 Spr

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

SpringBoot中Get请求和POST请求接收参数示例详解

《SpringBoot中Get请求和POST请求接收参数示例详解》文章详细介绍了SpringBoot中Get请求和POST请求的参数接收方式,包括方法形参接收参数、实体类接收参数、HttpServle... 目录1、Get请求1.1 方法形参接收参数 这种方式一般适用参数比较少的情况,并且前后端参数名称必须

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de