爬虫工作量由小到大的思维转变---＜Scrapy异常的存放小探讨＞

本文主要是介绍爬虫工作量由小到大的思维转变---＜Scrapy异常的存放小探讨＞，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言:

异常很正常,调试异常/日志异常/错误异常~

但在爬虫的时候,写完代码--->运行后根本挡不住一些运行异常;于是,把异常写到了中间件~ 当然,这也没有错;

不过,其实可以直接这么设计一下...

正文:

参照一下中间件处理的异常

def process_exception(self, request, exception, spider):pass

我们除了在请求异常的时候给他记录一下之外;

还有个地方,例如

html解析异常/报错; spiders的解析
数据处理异常,pipelines的数据解析class
数据存储异常;存到数据库等文件的class
等;

对于这些,明明请求到数据,但是意外引起的异常-----属于会`漏数据的行为`,必须要给他记录起来的;

因此,在scrapy中最好是自己给他补一个处理异常的方法,让他存在关键位置;

例如(一个小模版):

import loggingdef log_exception(self, item, spider, exception):logger = logging.getLogger('exception_logger')logger.setLevel(logging.ERROR)formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')file_handler = logging.FileHandler('数据存储异常.txt')file_handler.setLevel(logging.ERROR)file_handler.setFormatter(formatter)logger.addHandler(file_handler)msg = f"Exception occurred for item type: {type(item)}, Spider: {spider.name}, Exception: {exception}"logger.error(msg)#在所有处理数据的地方,给他套上def process_infoitem(self, item):try:# 处理逻辑# ...passexcept Exception as e:self.log_exception(item, spider, e)

然后,让他输出到文件呀,redis啥的.随你放!

---等spiders_closed后, 你可以专门列一个爬虫,来把这些差了的数据给他补上!

(这是个小插曲,做个提醒)

这篇关于爬虫工作量由小到大的思维转变---＜Scrapy异常的存放小探讨＞的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

爬虫工作量由小到大的思维转变---＜Scrapy异常的存放小探讨＞

前言:

正文:

(这是个小插曲,做个提醒)

相关文章

Java异常架构Exception(异常)详解

Java报NoClassDefFoundError异常的原因及解决

一文带你深入了解Python中的GeneratorExit异常处理

Java捕获ThreadPoolExecutor内部线程异常的四种方法

解决java.lang.NullPointerException问题(空指针异常)

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

Spring Boot统一异常拦截实践指南(最新推荐)

Python中异常类型ValueError使用方法与场景

Spring中Bean有关NullPointerException异常的原因分析

Python中的异步:async 和 await以及操作中的事件循环、回调和异常