scrapy框架--快速了解

2024-08-25 02:36
文章标签 快速 框架 scrapy 了解

本文主要是介绍scrapy框架--快速了解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

免责声明:本文仅做分享~ 

目录

介绍:

5大核心组件:

安装scrapy:

创建到启动:

修改日志配置:settings.py

修改君子协议配置:

伪装浏览器头:

让代码去终端执行:

数据保存:

1-基于命令

2-基于管道

文档:


介绍:

5大核心组件:


 

Scrapy是一个开源的Python框架,用于抓取网站数据并进行数据处理。Scrapy是一个快速、高效的框架,可以用来构建快速、可扩展的爬虫。Scrapy框架的主要组件包括:

1-引擎:Scrapy引擎负责处理数据流,包括调度、下载、解析、存储等。(包工头,大心脏)

2-调度器:Scrapy调度器负责管理URL请求,并将请求发送给下载器。

--过滤器和请求队列

3-spider:Spider是爬虫的主要组件,负责解析网页并提取数据。  

parse()方法:用于解析网页并提取数据。

4-下载器:下载器负责下载网页并返回响应。

5-管道:管道是Scrapy框架的核心组件之一,负责处理爬取到的数据。(保存数据,数据清洗,数据分析)

引擎--spider--调度器--下载器--引擎--管道

 


安装scrapy:

pip install scrapy因为scrapy是异步框架,为什么是异步框架,是因为用了Twisted
pip install scrapy #默认安装最新版本的Scrapy
Twisted是一个Python网络框架,Scrapy使用Twisted来实现网络通信。异步IO的实现。
注意兼容问题.
Twisted                   22.10.0如果使用scrapy2.9.0 Twisted-23.8.0 会有兼容问题
需要手动降版本
先卸载 pip uninstall Twisted
再安装 pip install Twisted==22.10.0 

 


创建到启动:

1-创建scrapy项目:
scrapy startproject 项目名称
scrapy startproject scrapy_demo12-进入项目目录:
cd scrapy_demo13-scrapy genspider 爬虫名称 域名
scrapy genspider baidu baidu.com4-启动项目:
scrapy crawl 爬虫名
scrapy crawl baidu

修改日志配置:settings.py

#启动--发现打印了一些信息,调用,响应看

--设置日志输出的级别.

# 设置日志输出的级别:出现错误才输出.

LOG_LEVEL = "ERROR"


修改君子协议配置:

当pa百度的时候,发现返回不了数据,---因为百度有robots.txt 协议 -- 默认是遵守.

# 君子协议

ROBOTSTXT_OBEY = False

--我们不遵守.


伪装浏览器头:

伪装一下下,要不然明牌打.

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"


让代码去终端执行:

# xxx.py 放在项目的spider文件夹下from scrapy.cmdline import executeexecute(["scrapy","crawl", "爬虫名"])

数据保存:

1-基于命令

简单 -- 把所有数据return给parse()方法,然后执行命令.
缺点:有固定的格式:'json', 'jsonlines', 'jsonl', 'jl', 'csv', 'xml', 'marshal', 'pickle'
需要把parse()方法返回的数据保存到文件中: [{},{},{}]
scrapy crawl blibli -o blibli.txt  # 不行,会报错.scrapy crawl blibli -o blibli.csv
--本地打开乱码就另存为.(编码问题)

2-基于管道

复杂1-在爬虫文件中进行数据解析2-在items.py定义相关属性(你要保存什么数据,就定于什么属性.)3-在 爬虫文件中 把 解析的数据存储封装到item类型对象中4-把item类型对象提交给管道5-在管道文件中,接收爬虫文件提交过来的item类型对象6-配置文件中开启管道 (默认的类只针对保存到txt里面.) Excel / 数据库

文档:

 


 

这篇关于scrapy框架--快速了解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104302

相关文章

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

springboot security快速使用示例详解

《springbootsecurity快速使用示例详解》:本文主要介绍springbootsecurity快速使用示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录创www.chinasem.cn建spring boot项目生成脚手架配置依赖接口示例代码项目结构启用s

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

一文带你了解SpringBoot中启动参数的各种用法

《一文带你了解SpringBoot中启动参数的各种用法》在使用SpringBoot开发应用时,我们通常需要根据不同的环境或特定需求调整启动参数,那么,SpringBoot提供了哪些方式来配置这些启动参... 目录一、启动参数的常见传递方式二、通过命令行参数传递启动参数三、使用 application.pro

一文带你深入了解Python中的GeneratorExit异常处理

《一文带你深入了解Python中的GeneratorExit异常处理》GeneratorExit是Python内置的异常,当生成器或协程被强制关闭时,Python解释器会向其发送这个异常,下面我们来看... 目录GeneratorExit:协程世界的死亡通知书什么是GeneratorExit实际中的问题案例

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

C++快速排序超详细讲解

《C++快速排序超详细讲解》快速排序是一种高效的排序算法,通过分治法将数组划分为两部分,递归排序,直到整个数组有序,通过代码解析和示例,详细解释了快速排序的工作原理和实现过程,需要的朋友可以参考下... 目录一、快速排序原理二、快速排序标准代码三、代码解析四、使用while循环的快速排序1.代码代码1.由快

Win32下C++实现快速获取硬盘分区信息

《Win32下C++实现快速获取硬盘分区信息》这篇文章主要为大家详细介绍了Win32下C++如何实现快速获取硬盘分区信息,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实现代码CDiskDriveUtils.h#pragma once #include <wtypesbase