本文主要是介绍浏览器的模拟——Headers属性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。
那么可以设置Header信息,模拟浏览器去访问这些网站,此时,就能解决这个问题。添加User-Agent的两种方法
方法一:使用build_opean()修改包头
import urllib.request
url="https://blog.csdn.net/u013109501/article/details/81981888"
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
方法二:使用add_header()添加报头
import urllib.request
url="https://blog.csdn.net/u013109501/article/details/81981888"
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0')
data=urllib.request.urlopean(req).read()
这篇关于浏览器的模拟——Headers属性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!