本文主要是介绍一招搞定重定向网页,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
重定向网页爬取策略
文章目录
- 重定向网页爬取策略
- 1.网页重定向的表现
- 2.网页重定向的途径
- 2.1 服务器端重定向
- 2.2 meta refresh标签实现
- 2.3 JS重定向
- 3.服务器端重定向网页爬取方案
1.网页重定向的表现
HTTP 302 Found 重定向状态码表明请求的资源被暂时的移动到了由Location 头部指定的 URL 上。浏览器会重定向到这个URL, 但是搜索引擎不会对该资源的链接进行更新,将会再次请求location字段包含的url,如下图网页响应数据:
紧接请求location字段的url
2.网页重定向的途径
2.1 服务器端重定向
服务器端重定向在服务器端完成,一般爬虫可以自适应,不需要做特别的处理,如相应代码302(可以通过reponse对象中的url、status_code属性来判断),一般重定向后的url在数据包头部的Location字段中,需要获取Location字段的值。
2.2 meta refresh标签实现
网页将实现跳转,爬虫直接获取meta标签的content属性即可
<html><head><meta http-equiv="refresh" content="url=http://www.baidu.com"></head>
</html>
2.3 JS重定向
这种通过js代码加载的方式,一般找到包含内容的代码段即可找到url
<scriptlanguage=javascript>window.location.href='http://www.baidu.com'</script>
3.服务器端重定向网页爬取方案
由于服务器端重定向网页解决相对更复杂,于是主要讲述这种情形,网站url:http://61.187.179.66:8924
1.网页规则:第一个网页登录成功之后,响应状态为302,随后通过get请求了另一个网页(状态也是302,url就是第一个网页response头部Location字段包含的url),随后才访问有效的网页。
2.分析网页之间的联系:通过分析,有效网页的cookie与前两次重定向网页的cookie有很大关联,有效网页的cookie=初始网页的cookie+重定向网页应答数据中的set-cookie字段
3.重点是如何获取Location字段的值呢?
Location是数据包的头部数据,requests类库提供了方法访问数据包头,如下
histroy=respose.history
a=histroy[0].headers
print(a['Location'])
下图为获取的Location字段内容:
4.重点已经讲述的差不多了,写爬虫时记得请求时带上相应的cookie因为这样才能辨别是否是同一次会话,由于目标网页是咱们学校新教务,于是就不方便上代码了。
这篇关于一招搞定重定向网页的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!