Scrapy（一）：Spider框架

2024-01-23 18:48

文章标签 框架 scrapy spider

本文主要是介绍Scrapy（一）：Spider框架，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

说道Python，估计很多同学跟我一样都是从学习Python的爬虫开始的。当然你可以使用lxml、BeautifulSoup、Request等第三方库来编写自己的爬虫。但是当需要爬取海量数据，特别是大数据的实际应用中，若自己编写爬虫，是一件特别困难的事情。还好Python提供了类似Scrapy等类似的爬虫框架。

1. Scrapy框架介绍

Scrapy | A Fast and Powerful Scraping and Web Crawling Framework

5+2结构

1.1 Scrapy框架主要包括：

Scrapy Engine（引擎）、Scheduler(调度器)、Downloader（下载器）、Spiders（爬虫）、Item Pipeline
Downloader Middlewares（下载中间件）、Spider Middlewares（Spider中间件）

1.1.1 Scrapy Engine（引擎）

负责Spiders、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等等！（爬虫的大脑）

1.1.2 Scheduler(调度器)

负责接受引擎发送过来的requests请求。按照一定的方式进行整理排列，入队、并等待Scrapy Engine(引擎)来请求时，交给引擎。

1.1.3 Downloader（下载器）

负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spiders来处理

1.1.4 Spiders（爬虫）

它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

1.1.5 Item Pipeline

负责处理Spiders中获取到的Item，并进行处理，比如去重，持久化存储（存数据库，写入文件，总之就是保存数据用的）

1.1.6 Downloader Middlewares（下载中间件）

一个可以自定义扩展下载功能的组件

1.1.7 Spider Middlewares（Spider中间件）

一个可以自定义扩展和操作引擎，负责Spiders中间‘通信‘的功能组件（比如进入Spiders的Responses和从Spiders出去的Requests）

2. 下期预告

本期简单介绍一下scrapy的几个基本知识，下期讲述一下scrapy的简单流程图以及安装事宜。

这篇关于Scrapy（一）：Spider框架的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Scrapy（一）：Spider框架

1. Scrapy框架介绍

1.1 Scrapy框架主要包括：

1.1.1 Scrapy Engine（引擎）

1.1.2 Scheduler(调度器)

1.1.3 Downloader（下载器）

1.1.4 Spiders（爬虫）

1.1.5 Item Pipeline

1.1.6 Downloader Middlewares（下载中间件）

1.1.7 Spider Middlewares（Spider中间件）

2. 下期预告

相关文章

Python Dash框架在数据可视化仪表板中的应用与实践记录

基于Flask框架添加多个AI模型的API并进行交互

Python GUI框架中的PyQt详解

最新Spring Security实战教程之Spring Security安全框架指南

Python结合Flask框架构建一个简易的远程控制系统

SpringBoot集成图片验证码框架easy-captcha的详细过程

Gin框架中的GET和POST表单处理的实现

修改若依框架Token的过期时间问题

MyBatis框架实现一个简单的数据查询操作

cross-plateform 跨平台应用程序-03-如果只选择一个框架，应该选择哪一个?