本文主要是介绍selenium 爬取 公共环境研究中心 www.ipe.org.cn,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目标网站:
这个网站如果不登录的话 就会一直跳验证码,注册个账号 登录一下 拿到cookie,获取.ASPXAUTH后面的值,在selenium发起请求的时候带上
登录之后 可以拿到一页列表的数据
进入详情页后,会发现一个公司会有多个年份的报告,写个循环,逐个获取
获取的数据保存到mongo中
内容部分保存的是html格式,
这篇关于selenium 爬取 公共环境研究中心 www.ipe.org.cn的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!