一招搞定重定向网页

2024-04-26 23:32
文章标签 网页 重定向 搞定 一招

本文主要是介绍一招搞定重定向网页,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

重定向网页爬取策略

文章目录

  • 重定向网页爬取策略
    • 1.网页重定向的表现
    • 2.网页重定向的途径
      • 2.1 服务器端重定向
      • 2.2 meta refresh标签实现
      • 2.3 JS重定向
    • 3.服务器端重定向网页爬取方案

1.网页重定向的表现

HTTP 302 Found 重定向状态码表明请求的资源被暂时的移动到了由Location 头部指定的 URL 上。浏览器会重定向到这个URL, 但是搜索引擎不会对该资源的链接进行更新,将会再次请求location字段包含的url,如下图网页响应数据:
在这里插入图片描述紧接请求location字段的url
在这里插入图片描述

2.网页重定向的途径

2.1 服务器端重定向

服务器端重定向在服务器端完成,一般爬虫可以自适应,不需要做特别的处理,如相应代码302(可以通过reponse对象中的url、status_code属性来判断),一般重定向后的url在数据包头部的Location字段中,需要获取Location字段的值。

2.2 meta refresh标签实现

网页将实现跳转,爬虫直接获取meta标签的content属性即可

<html><head><meta http-equiv="refresh" content="url=http://www.baidu.com"></head>
</html>

2.3 JS重定向

这种通过js代码加载的方式,一般找到包含内容的代码段即可找到url

<scriptlanguage=javascript>window.location.href='http://www.baidu.com'</script>

3.服务器端重定向网页爬取方案

由于服务器端重定向网页解决相对更复杂,于是主要讲述这种情形,网站url:http://61.187.179.66:8924

1.网页规则:第一个网页登录成功之后,响应状态为302,随后通过get请求了另一个网页(状态也是302,url就是第一个网页response头部Location字段包含的url),随后才访问有效的网页。
在这里插入图片描述在这里插入图片描述2.分析网页之间的联系:通过分析,有效网页的cookie与前两次重定向网页的cookie有很大关联,有效网页的cookie=初始网页的cookie+重定向网页应答数据中的set-cookie字段
在这里插入图片描述在这里插入图片描述在这里插入图片描述3.重点是如何获取Location字段的值呢?
Location是数据包的头部数据,requests类库提供了方法访问数据包头,如下

histroy=respose.history
a=histroy[0].headers
print(a['Location'])

下图为获取的Location字段内容:
在这里插入图片描述4.重点已经讲述的差不多了,写爬虫时记得请求时带上相应的cookie因为这样才能辨别是否是同一次会话,由于目标网页是咱们学校新教务,于是就不方便上代码了。

这篇关于一招搞定重定向网页的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/938964

相关文章

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

Python使用DrissionPage中ChromiumPage进行自动化网页操作

《Python使用DrissionPage中ChromiumPage进行自动化网页操作》DrissionPage作为一款轻量级且功能强大的浏览器自动化库,为开发者提供了丰富的功能支持,本文将使用Dri... 目录前言一、ChromiumPage基础操作1.初始化Drission 和 ChromiumPage

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

nginx中重定向的实现

《nginx中重定向的实现》本文主要介绍了Nginx中location匹配和rewrite重定向的规则与应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下... 目录一、location1、 location匹配2、 location匹配的分类2.1 精确匹配2

Python实现文件下载、Cookie以及重定向的方法代码

《Python实现文件下载、Cookie以及重定向的方法代码》本文主要介绍了如何使用Python的requests模块进行网络请求操作,涵盖了从文件下载、Cookie处理到重定向与历史请求等多个方面,... 目录前言一、下载网络文件(一)基本步骤(二)分段下载大文件(三)常见问题二、requests模块处理

Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单

《Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单》:本文主要介绍Springboot的ThreadPoolTaskScheduler线... 目录ThreadPoolTaskScheduler线程池实现15分钟不操作自动取消订单概要1,创建订单后

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求,要求做一款播放器,发现能力上跟EasyPlayer.js基本一致,满足要求: 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏(单屏/全屏) 多分屏(2*2) 多分屏(3*3) 多分屏(4*4) 播放控制 播放(单个或全部) 暂停(暂停时展示最后一帧画面) 停止(单个或全部) 声音控制(开关/音量调节) 主辅码流切换 辅助功能 屏

禁止复制的网页怎么复制

禁止复制的网页怎么复制 文章目录 禁止复制的网页怎么复制前言准备工作操作步骤一、在浏览器菜单中找到“开发者工具”二、点击“检查元素(inspect element)”按钮三、在网页中选取需要的片段,锁定对应的元素四、复制被选中的元素五、粘贴到记事本,以`.html`为后缀命名六、打开`xxx.html`,优雅地复制 前言 在浏览网页的时候,有的网页内容无法复制。比如「360