requestes专题

千里之行，始于足下。python 爬虫 requestes模块（3）

简易网页搜集器（2）前面我们学会了如何用 UA 伪装骗过服务器爬取我们想要的网页数据，不知道你们会不会和我一样在学会 UA 伪装的兴奋后突然想到另一个问题——就是我们爬取一个页面就要改一次 url 吗？答案当然是否定的。我们观察下面两个网址一个显然易见的区别是我圈起来的部分，即“wd = ” 那我就怀疑搜索不同的关键词，“wd” 都不同，那么是不是这么一回事呢？我们可以试试。

千里之行，始于足下。python 爬虫 requestes模块（2）

简易网页搜集器前面我们已经学会了简单爬取浏览器页面的爬虫。但事实上我们的需求当然不是爬取搜狗首页或是B站首页这么简单，再不济，我们都希望可以爬取某个特定的有信息的页面。不知道在学会了爬取之后，你有没有跟我一样试着去爬取一些搜索页面，比如说百度。像这样的页面注意我红笔划的部分，这是我打开的网页。现在我希望能爬取这一页的数据，按我们前面学的代码，应该是这样写的： import reques

千里之行，始于足下。python 爬虫 requestes模块（1）

爬虫的流程：在开始学习爬虫，我们必须了解爬虫的流程框架。在我看来爬虫的流程大概就是三步，即不论我们爬取的是什么数据，总是可以把爬虫的流程归纳总结为这三步：指定 url，可以简单的理解为指定要爬取的网址发送请求。requests 模块的请求一般为 get 和 post将爬取的数据存储 requests 模块的导入：因为 requests 模块属于外部库，所以需要我们自己导入库导