Heritrix安装与运行

2023-10-22 22:32
文章标签 安装 运行 heritrix

本文主要是介绍Heritrix安装与运行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、Heritrix直接安装

1、下载 heritrix-1.14.4.zip、heritrix-1.14.4-src.zip,将得到的heritrix-1.14.4.zip压缩包直接解压缩到某一目录。如:F:\Heritrix

2、然后,将 F:\Heritrix 目录中的heritrix-1.14.4.jar文件解压缩,把 profiles\default 下的两个文件order.xml和seeds.txt复制到 F:\Heritrix\conf 目录下。

3、以文本编辑方式打开 F:\Heritrix\conf中的heritrix.properties文件进行简单的配置。

# Version is filled in by themaven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.4# Location of the heritrixjobs directory.
heritrix.jobsdir = jobs# Default commandlinestartup values.
# Below values are used ifunspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order=

4、复制 F:\Heritrix\conf 下的jmxremote.password.template文件到主目录F:\Heritrix下,并更名为jmxremote.password。编辑此文件,更改最后两行"monitorRole@PASSWORD@"、"controlRole       @PASSWORD@"中的"@PASSWORD@"为管理员密码。如:

monitorRole admin

controlRole admin 

修改完毕之后,保存该文件,并且需要将该文件的属性改为“只读”。

5、在F:\Heritrix\bin中新建文件run.cmd,打开输入heritrix --admin=admin:admin保存关闭。

6、有Java环境,配置正确,双击run.cmd就可以运行。如运行不成功90%原因是jmxremote.password权限的问题。

7、访问地址http://127.0.0.1:8080

二、在Eclipse中构建Heritrix 

1、下载 heritrix-1.14.4.zip、heritrix-1.14.4-src.zip。

2、在Eclipse中创建一个Heritrix 的工程,分别对 heritrix-1.14.4.zip、heritrix-1.14.4-src.zip进行解压。

3、将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。

4、将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。 

5、将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。 

6、将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。 

7、将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。 

8、配置文件进行修改,找到conf下heritrix.properties文件,同上。。

9、对工程进行jar包引入,将lib下面所有的jar包引入工程。 

在Heritrix 项目右键、Build Path、Configure Built Path...、Libraries、Add JARs...将lib目录下的所有.jar文件选中,点击完成。

这时,只有文件Heritrix.java中第120行有个叉叉,找不到sun.net.www.protocol.file.FileURLConnection,网上找了一下原因是sun包是受保护的包,默认只有sun公司的软件才能使用,Eclipse使用则会报错,只需把对保护使用waring就可以了。具体的做法是:Windows ->Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated andtrstricted API -> Forbidden reference (access rules): -> 改为warning

10、在工程中找到org.archive.crawler.Heritrix.java右键Run As、RunConfigurations、Classpath 、User Entries -- Advanced 、Add Folders 将conf文件夹添加进去。 

点击Run 开始运行 ,显示如下

09:17:41.250 EVENT  Starting Jetty/4.2.23
09:17:41.312 WARN!! Deleteexisting temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ forWebApplicationContext[/,jar:file:/C:/Documents%20and%20Settings/Administrator/workspace/heritrix/webapps/admin.war!/]
09:17:41.437 EVENT  Started WebApplicationContext[/,HeritrixConsole]
09:17:41.562 EVENT  Started SocketListener on 127.0.0.1:8080
09:17:41.562 EVENT  Started org.mortbay.jetty.Server@14d3343
Heritrix version: 1.14.4

11、访问地址http://127.0.0.1:8080

三、运行

(1)导航栏选择"Jobs",呈现的第一项是"Create New Job",选择第四小项"With defaults"。输入任务名称、任务描述、开始的URL。

(2) 选择下边的"Modules",进入Module配置页(Heritrix的扩展功能都是通过模块概念实现的,可以实现自己的模块完成自己想要的功能)。其中第一项 "Select Crawl Scope" 使用默认的 "org.archive.crawler.deciderules.DecidingScope"。倒数第三项 "SelectWriters " 删除默认的 "org.archive.crawler.writer.ARCWriterProcessor" ,后添加"org.archive.crawler.writer.MirrorWriterProcessor",这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成ARC存档文件。

(3) 选择"Modules"右边的"Submodules",在第一项内容中 "crawl-order ->scope->decide-rules->rules" 删除掉其中的"acceptIfTranscluded"(org.archive.crawler.deciderules.TransclusionDecideRule) 的这一项抓取作用域的规则。否则当Http请求返回301或者302时Heritrix会去抓取其他域下的网页。

(4) 在WUI的第二行导航栏中选择"Settings"进入Job的配置页面,其中主要修改两项:http-headers 下的user-agent 和from,他们的"PROJECT_URL_HERE"和 "CONTACT_EMAIL_ADDRESS_HERE"替换为自己的内容("PROJECT_URL_HERE"要以"http://" 开头,填本地IP;CONTACT_EMAIL_ADDRESS_HERE填合法e-mail)

(5) 在WUI的第二行导航栏中选择最右边的"Submitjob"。

(6) 在WUI的第一行导航栏中选择第一项的"Console",点击"Start",抓取任务正式开始,时间长短有网络状况和所抓取网站的深度有关。


这篇关于Heritrix安装与运行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/264003

相关文章

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Centos7安装Mongodb4

1、下载源码包 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 放到 /usr/local/ 目录下 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgzmv mongodb-linux-x86_64-rhel70-4.2.1/

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

Centos7安装JDK1.8保姆版

工欲善其事,必先利其器。这句话同样适用于学习Java编程。在开始Java的学习旅程之前,我们必须首先配置好适合的开发环境。 通过事先准备好这些工具和配置,我们可以避免在学习过程中遇到因环境问题导致的代码异常或错误。一个稳定、高效的开发环境能够让我们更加专注于代码的学习和编写,提升学习效率,减少不必要的困扰和挫折感。因此,在学习Java之初,投入一些时间和精力来配置好开发环境是非常值得的。这将为我

安装nodejs环境

本文介绍了如何通过nvm(NodeVersionManager)安装和管理Node.js及npm的不同版本,包括下载安装脚本、检查版本并安装特定版本的方法。 1、安装nvm curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash 2、查看nvm版本 nvm --version 3、安装

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud