首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
requestes专题
千里之行,始于足下。python 爬虫 requestes模块(3)
简易网页搜集器(2) 前面我们学会了如何用 UA 伪装骗过服务器爬取我们想要的网页数据,不知道你们会不会和我一样在学会 UA 伪装的兴奋后突然想到另一个问题——就是我们爬取一个页面就要改一次 url 吗? 答案当然是否定的。 我们观察下面两个网址 一个显然易见的区别是我圈起来的部分,即“wd = ” 那我就怀疑搜索不同的关键词,“wd” 都不同,那么是不是这么一回事呢?我们可以试试。
阅读更多...
千里之行,始于足下。python 爬虫 requestes模块(2)
简易网页搜集器 前面我们已经学会了简单爬取浏览器页面的爬虫。但事实上我们的需求当然不是爬取搜狗首页或是B站首页这么简单,再不济,我们都希望可以爬取某个特定的有信息的页面。 不知道在学会了爬取之后,你有没有跟我一样试着去爬取一些搜索页面,比如说百度。像这样的页面 注意我红笔划的部分,这是我打开的网页。现在我希望能爬取这一页的数据,按我们前面学的代码,应该是这样写的: import reques
阅读更多...
千里之行,始于足下。python 爬虫 requestes模块(1)
爬虫的流程: 在开始学习爬虫,我们必须了解爬虫的流程框架。在我看来爬虫的流程大概就是三步,即不论我们爬取的是什么数据,总是可以把爬虫的流程归纳总结为这三步: 指定 url, 可以简单的理解为指定要爬取的网址发送请求。requests 模块的请求一般为 get 和 post将爬取的数据存储 requests 模块的导入: 因为 requests 模块属于外部库,所以需要我们自己导入库 导
阅读更多...