本文主要是介绍scrapy分布式爬虫的部署,调度,与管理(scrapy + scrapy-redis + scrapyd + gerapy),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
使用到的框架及软件包介绍
- Github Gerapy 提供主机管理,爬虫项目管理,爬虫任务管理的web管理后台。
- Github Scrapy-redis 提供中心化的任务队列,任务指纹队列,供分布式爬虫共享爬取任务队列。
- Github Scrapyd 提供通过api方式单机部署爬虫的功能,爬虫状态查询等。
- Github Scrapy 一个python实现的高级web爬取和抓取框架,用于爬虫开发。
背景介绍
根据sprapy distributed crawls官方文档说明,scrapy自己并不支持分布式的部署方式。文档给出的兼容方案是将不同的spider使用多台运行scipyd的设备进行部署,或者对于单一比较重的爬虫,手动分割爬取的地址列表,然后分配到多台设备。
但是这种部署方式需要分割地址列表,并且需要手动打包项目,调用接口部署, 这在大规模部署,或者日常管理会带来很多的不便。
安装部署
本文不包含爬虫开发的内容,关于爬虫开发请自行参考scrapy文档。<
这篇关于scrapy分布式爬虫的部署,调度,与管理(scrapy + scrapy-redis + scrapyd + gerapy)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!