开源框架WebCollector抓取图片初试

2024-04-05 07:08

本文主要是介绍开源框架WebCollector抓取图片初试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

官网地址:https://github.com/CrawlScript/WebCollector 。这是java版本,如果想要体验Python版本的话请移步 https://github.com/CrawlScript/WebCollector-Python

其它介绍文章

  • https://www.freesion.com/article/255392486/
  • https://blog.csdn.net/AJAXHu/article/details/81108253

废话不多说,直接进入正题。首先用maven引入相关依赖,目前最新的是2.73-alpha版本

<dependency><groupId>cn.edu.hfut.dmic.webcollector</groupId><artifactId>WebCollector</artifactId><version>2.73-alpha</version>
</dependency>

具体如何使用请看下面示例代码,用来抓取网站的图片,具体哪个网站不太方便给出来,大家自行尝试。

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.ExceptionUtils;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import cn.edu.hfut.dmic.webcollector.util.MD5Utils;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;/*** 继承 BreadthCrawler(广度爬虫)* BreadthCrawler 是 WebCollector 最常用的爬取器之一** @author hu*/
public class DemoCrawler extends BreadthCrawler {File baseDir = new File("images");/*** 构造一个基于伯克利DB的爬虫* 伯克利DB文件夹为crawlPath,crawlPath中维护了历史URL等信息* 不同任务不要使用相同的crawlPath* 两个使用相同crawlPath的爬虫并行爬取会产生错误** @param crawlPath 伯克利DB使用的文件夹*/public DemoCrawler(String crawlPath) {//设置是否自动解析网页内容super(crawlPath, true);//只有在autoParse和autoDetectImg都为true的情况下//爬虫才会自动解析图片链接//getConf().setAutoDetectImg(true);//如果使用默认的Requester,需要像下面这样设置一下网页大小上限//否则可能会获得一个不完整的页面//下面这行将页面大小上限设置为10M//getConf().setMaxReceiveSize(1024 * 1024 * 10);//添加种子URLaddSeed("http://www.xxx.com");//限定爬取范围addRegex("http://image.xxx.com/.*");addRegex("-.*#.*");addRegex("-.*\\?.*");//设置线程数setThreads(10);}@Overridepublic void visit(Page page, CrawlDatums next) {//根据http头中的Content-Type信息来判断当前资源是网页还是图片String contentType = page.contentType();if (contentType == null) {return;} else if (contentType.contains("html")) {//如果是网页,则抽取其中包含图片的URL,放入后续任务Elements imgs = page.select("img[src]");for (Element img : imgs) {String imgSrc = img.attr("abs:src");if (imgSrc.indexOf("thumb") < 0) {next.add(imgSrc);}}} else if (contentType.startsWith("image")) {//如果是图片,直接下载String extensionName = contentType.split("/")[1];try {byte[] image = page.content();//限制文件大小 10kif (image.length < 10240) {return;}//根据图片MD5生成文件名String fileName = String.format("%s.%s", MD5Utils.md5(image), extensionName);File imageFile = new File(baseDir, fileName);FileUtils.write(imageFile, image);System.out.println("保存图片 " + page.url() + " 到 " + imageFile.getAbsolutePath());} catch (Exception e) {ExceptionUtils.fail(e);}}}// 主要解决下载图片出现403的问题// 自定义的请求插件// 可以自定义User-Agent和Cookiepublic static class MyRequester extends OkHttpRequester {String userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36";// 每次发送请求前都会执行这个方法来构建请求@Overridepublic Request.Builder createRequestBuilder(CrawlDatum crawlDatum) {// 这里使用的是OkHttp中的Request.Builder// 可以参考OkHttp的文档来修改请求头return super.createRequestBuilder(crawlDatum).removeHeader("User-Agent")  //移除默认的UserAgent.addHeader("Referer", "http://www.xxx.com").addHeader("User-Agent", userAgent);}}public static void main(String[] args) throws Exception {//crawl为日志目录DemoCrawler demoImageCrawler = new DemoCrawler("crawl");demoImageCrawler.setRequester(new MyRequester());//设置为断点爬取,否则每次开启爬虫都会重新爬取demoImageCrawler.setResumable(true);//爬取深度demoImageCrawler.start(5);}
}

示例代码参考了以下来源,稍微优化了一下
http://datahref.com/archives/132

这篇关于开源框架WebCollector抓取图片初试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877934

相关文章

使用 Python 和 LabelMe 实现图片验证码的自动标注功能

《使用Python和LabelMe实现图片验证码的自动标注功能》文章介绍了如何使用Python和LabelMe自动标注图片验证码,主要步骤包括图像预处理、OCR识别和生成标注文件,通过结合Pa... 目录使用 python 和 LabelMe 实现图片验证码的自动标注环境准备必备工具安装依赖实现自动标注核心

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

基于C#实现将图片转换为PDF文档

《基于C#实现将图片转换为PDF文档》将图片(JPG、PNG)转换为PDF文件可以帮助我们更好地保存和分享图片,所以本文将介绍如何使用C#将JPG/PNG图片转换为PDF文档,需要的可以参考下... 目录介绍C# 将单张图片转换为PDF文档C# 将多张图片转换到一个PDF文档介绍将图片(JPG、PNG)转

Qt QWidget实现图片旋转动画

《QtQWidget实现图片旋转动画》这篇文章主要为大家详细介绍了如何使用了Qt和QWidget实现图片旋转动画效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、效果展示二、源码分享本例程通过QGraphicsView实现svg格式图片旋转。.hpjavascript

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte