webmagic scheduler源码分析

2024-03-18 16:38

本文主要是介绍webmagic scheduler源码分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

webmagic scheduler源码分析

项目中使用webmagic作为爬虫爬取框架,需要实现2个功能:

  • 对于一些未爬取到的URL,需要做重试机制,重复爬取,设置爬取次数,直至爬取到网页内容或者达到重试次数。
  • 用户点击停止,则停止对剩余URL的爬取。

这二个功能的添加都是对scheduler模块进行改造,webmagic的scheduler模块负责管理待抓取的URL,以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL,并用集合来进行去重。此为实现的前提。

重试

由于使用过的是webmagic框架,框架中的pageprocessor模块自带方法page.addTargetRequest()来将URL添加到队列尾,前期在使用时,直接将未爬取成功的URL添加进去,发现程序并未对该URL进行重试,研究源码后,发现他的实现是:

@Overridepublic void push(Request request, Task task) {logger.trace("get a candidate url {}", request.getUrl());if (shouldReserved(request) || noNeedToRemoveDuplicate(request) || !duplicatedRemover.isDuplicate(request, task)) {logger.debug("push to queue {}", request.getUrl());pushWhenNoDuplicate(request, task);}}

在往队列中push元素时,会进行一次队列中是否有重复数据的判断,若有重复数据便不添加到队列中,因此,我们重写了scheduler:

/*** (shouldReserved(request) || noNeedToRemoveDuplicate(request) || !duplicatedRemover.isDuplicate(request, task))* 忽略掉去重方法,认为去重总是返回true,** @param request* @param task*/@Overridepublic void push(Request request, Task task) {logger.debug("push to queue {}", request.getUrl());pushWhenNoDuplicate(request, task);}

修改后,程序通过page.addTargetRequest()方法,设置爬取次数,进行重试爬取。

停止

既然基于webmagic框架,则考虑对框架内使用的方法进行二次开发,原以为调用page.getTargetRequests().clear()方法,将所有剩余的request队列清空,即可达到停止的目的,后在项目上线后,运行几天,发现出现用户点击停止仍旧爬取的情况。

前面提到,scheduler模块使用JDK内存队列管理URL。经过研究webmagic源码发现,程序在爬取下一个URL的时候,是从scheduler队列中直接push一个元素出来,而我的操作并没有对scheduler进行修改。所以重写了一下scheduler,添加一个方法:

/*** add a url to fetch** @param request request* @param task task*/public void push(Request request, Task task);/*** get an url to crawl** @param task the task of spider* @return the url to crawl*/public Request poll(Task task);/*** clear方法添加*/public void clear();

之后在Spider(WebMagic操作的入口)启动时,前一个URL爬取成功进行Pipeline操作时,调用scheduler的clear方法,进行清空操作:

private void onDownloadSuccess(Request request, Page page) {if (site.getAcceptStatCode().contains(page.getStatusCode())) {pageProcessor.process(page);
//            如果targetRequest队列清空了,则清空scheduler里面的queueif (page.getResultItems().isSkip()) {scheduler.clear();exitWhenComplete = true;}extractAndAddRequests(page, spawnUrl);if (!page.getResultItems().isSkip()) {for (Pipeline pipeline : pipelines) {pipeline.process(page.getResultItems(), this);}}} else {logger.info("page status code error, page {} , code: {}", request.getUrl(), page.getStatusCode());}sleep(site.getSleepTime());return;}

在Spider启动类的方法里面添加一个判断,其余不做修改,即可达到目的。

这篇关于webmagic scheduler源码分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/822955

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

工厂ERP管理系统实现源码(JAVA)

工厂进销存管理系统是一个集采购管理、仓库管理、生产管理和销售管理于一体的综合解决方案。该系统旨在帮助企业优化流程、提高效率、降低成本,并实时掌握各环节的运营状况。 在采购管理方面,系统能够处理采购订单、供应商管理和采购入库等流程,确保采购过程的透明和高效。仓库管理方面,实现库存的精准管理,包括入库、出库、盘点等操作,确保库存数据的准确性和实时性。 生产管理模块则涵盖了生产计划制定、物料需求计划、

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。