一招搞定重定向网页

本文主要是介绍一招搞定重定向网页，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

重定向网页爬取策略

文章目录

重定向网页爬取策略
- 1.网页重定向的表现
- 2.网页重定向的途径
- - 2.1 服务器端重定向
  - 2.2 meta refresh标签实现
  - 2.3 JS重定向
- 3.服务器端重定向网页爬取方案

1.网页重定向的表现

HTTP 302 Found 重定向状态码表明请求的资源被暂时的移动到了由Location 头部指定的 URL 上。浏览器会重定向到这个URL，但是搜索引擎不会对该资源的链接进行更新，将会再次请求location字段包含的url，如下图网页响应数据：
在这里插入图片描述紧接请求location字段的url

2.网页重定向的途径

2.1 服务器端重定向

服务器端重定向在服务器端完成，一般爬虫可以自适应，不需要做特别的处理，如相应代码302(可以通过reponse对象中的url、status_code属性来判断)，一般重定向后的url在数据包头部的Location字段中，需要获取Location字段的值。

2.2 meta refresh标签实现

网页将实现跳转，爬虫直接获取meta标签的content属性即可

<html><head><meta http-equiv="refresh" content="url=http://www.baidu.com"></head>
</html>

2.3 JS重定向

这种通过js代码加载的方式，一般找到包含内容的代码段即可找到url

<scriptlanguage=javascript>window.location.href='http://www.baidu.com'</script>

3.服务器端重定向网页爬取方案

由于服务器端重定向网页解决相对更复杂，于是主要讲述这种情形，网站url：http://61.187.179.66:8924

1.网页规则：第一个网页登录成功之后，响应状态为302，随后通过get请求了另一个网页(状态也是302，url就是第一个网页response头部Location字段包含的url)，随后才访问有效的网页。
在这里插入图片描述 2.分析网页之间的联系：通过分析，有效网页的cookie与前两次重定向网页的cookie有很大关联，有效网页的cookie=初始网页的cookie+重定向网页应答数据中的set-cookie字段
3.重点是如何获取Location字段的值呢？
Location是数据包的头部数据，requests类库提供了方法访问数据包头，如下

histroy=respose.history
a=histroy[0].headers
print(a['Location'])

下图为获取的Location字段内容：
在这里插入图片描述 4.重点已经讲述的差不多了，写爬虫时记得请求时带上相应的cookie因为这样才能辨别是否是同一次会话，由于目标网页是咱们学校新教务，于是就不方便上代码了。

这篇关于一招搞定重定向网页的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

一招搞定重定向网页

重定向网页爬取策略

文章目录

1.网页重定向的表现

2.网页重定向的途径

2.1 服务器端重定向

2.2 meta refresh标签实现

2.3 JS重定向

3.服务器端重定向网页爬取方案

相关文章

Nginx 重写与重定向配置方法

HTML5 getUserMedia API网页录音实现指南示例小结

使用Python实现网页表格转换为markdown

Nginx部署React项目时重定向循环问题的解决方案

一文教你Python如何快速精准抓取网页数据

python获取网页表格的多种方法汇总

如何使用Nginx配置将80端口重定向到443端口

使用Python实现获取网页指定内容

Python使用DrissionPage中ChromiumPage进行自动化网页操作

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程