小技巧绕过Sina Visitor System(新浪访客系统)

本文主要是介绍小技巧绕过Sina Visitor System(新浪访客系统)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

0x00 前言

一直以来，爬虫与反爬虫技术都时刻进行着博弈，而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规手段如验证码、封IP等等相信很多人都见识过……

当然确实有需要的话可以通过新浪开放平台提供的API进行数据采集，但是普通开发者的权限比较低，限制也比较多。所以如果只是做一些简单的功能还是爬虫比较方便~

应该是今年的早些时候，新浪引入了一个Sina Visitor System(新浪访客系统)，也不知道是为了提高用户体验还是为了反爬虫，或许是兼而有之。实际结果就是，爬虫取回来的页面全部变成Sina Visitor System了

怎么办呢，我们先来看看这个Sina Visitor System是怎么回事

0x01 分析

也许有人没有见过这个页面，那说明你的浏览器里存有新浪微博的 cookie ，你可以打开浏览器的隐身模式，然后进入新浪微博首页，就可以看到下面这个样子

sina visitor system

大概过上几秒钟才能进入正常的页面，访问其他 weibo.com 下的页面如某个用户的主页也是同样的情况

我们可以通过Sina Visitor System的网页源码来看看它到底做了什么

代码不是很多，而且还有中文注释，新浪还真是照顾我们……

根据中文注释就可以知道，它先是判断用户请求中是否携带 cookie ，如果有就直接进入正常页面，否则就要走访客流程了。

对用户来讲，除非你是第一次进入 weibo.com ，否则一定会有 cookie ，自然不会卡在这个页面。而一般的爬虫是不携带 cookie 的，除非进行了模拟登录或者把已有的 cookie 放入爬虫的请求中去，否则取回的结果就是Sina Visitor System了

0x02 换个思路

如果从正常角度来想这个问题，肯定是顺着它的代码逻辑来，既然它要检测cookie ，那么我们就用爬虫模拟登陆一下或者在 HTTP 请求中带上已有的 cookie不就得了？没错，这样是可行的，但是要注意，模拟登录可能会遇到验证码，而cookie 也有一定的有效期，更重要的是这两种方法都需要一个账号，因此这些方法都不是长久之计。

说来也巧，刚好在知乎上看到这样的页面

zhihu