本文主要是介绍scrapy爬虫框架实现url跟进爬取页面详情,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本篇博文将介绍如何搭建爬虫项目实现目录页的数据爬取,并对每个目录标题下的url进行跟进,进入该url爬取该页面的详情内容。最后把结果保存为本地json文件或者csv文件。详细的项目搭建操作已经在前面博文中提及了,可以参考:
https://blog.csdn.net/fallwind_of_july/article/details/97246577
文章非常适合有入门基础的小伙伴们一起学习和研究,我的其他博文也有从零开始学习使用scrapy框架的过程。该项目经过实测验证,代码可以成功运行。文章最后给出github免费的源码下载地址,小伙伴下载下来看着源码分析一下就会很清楚了。
本篇博文是在上一篇的基础上搭建的,上一篇已经成功爬取公到了链接:
https://blog.csdn.net/fallwind_of_july/article/details/97391822
.
一、爬取目标网站:
http://www.gz.gov.cn/gzgov/snzc/common_list.shtml
.
二、爬取目标信息:
我们将要爬取公告的标题,时间以及链接,以及每个标题下的详情内容,如下图所示:
公告标题:
标题详情页:
三、网页分析:
用谷歌浏览器和xpath Helper插件,F12键来分析源代码
公告标题:
这篇关于scrapy爬虫框架实现url跟进爬取页面详情的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!