Nutch-2.2.1学习之七Nutch与Solr的集成

2024-01-08 04:32
文章标签 学习 2.2 集成 nutch 之七 solr

本文主要是介绍Nutch-2.2.1学习之七Nutch与Solr的集成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Nutch以开箱的方式支持Solr,这极大的简化了NutchSolr的集成。Nutch也移除了遗留的对Tomcat运行旧的Nutch web应用程序和Apache Lucene索引的依赖。Nutch1.x2.x关于Solr的区别在于1.x版本可以选择是否使用Solr索引,这需要一步一步地进行爬取工作,而2.x则提供了更为简洁的方式——crawl脚本,直接将爬取成功的页面与Solr集成在一起。当然通过阅读crawl脚本也可以将2.x中的一步到位方式分解为若干步骤,并且选择是否由Solr建立索引。在学习如何将NutchSolr结合在一起使用之前,先看一下Solr官网的介绍。

Solr是从apacheLucene项目发展而来的流行的,非常快速的开源企业级搜索平台。主要特征包括强大的全文检索,分面搜索,近乎实时索引,动态集群,与数据库的集成,丰富的文档处理(比如wordPDF),还有地理空间搜索。Solr是高可靠、可扩展和容错的,提供分布式索引,复制和负载均衡查询,自动化的故障转移和恢复,集中管理等。Solr强化了很多世界上最大网站的搜索和导航特性。

Solr是用Java开发的,在一个诸如Jettyservlet容器中以单机模式运行全文搜索服务。Solr使用LuceneJava搜索库作为全文索引和搜索的核心,通过使用REST-like HTTP/XML andJSON APIs,使得几乎任何编程语言都可以很容易的使用Solr。使用者可以通过基于HTTP协议的XML, JSON,CSV 或者二进制将文档放在Solr中(称为索引),使用HTTPGET方法查询并且收到XML,JSON, CSV 或者二进制结果。

根据官网的介绍,可以发现Solr提供了强大的关于索引的功能,并且几乎支持所有的编程语言,而不仅仅局限于JAVA。

现在开始将Nutch与Solr结合在一起。首先从官网下载Solr版本4.5.1版本,地址为http://lucene.apache.org/solr/,然后将下载的solr-4.5.1.tgz解压到相应的目录中,该目录在稍后将使用${SOLR_HOME}引用。进入${APACHE_SOLR_HOME}/example,执行java-jar start.jar,等到solr启动完毕后,在浏览器中输入http://localhost:8983/solr/#/,进入如下图片所示的页面:

在该页面中可以发现solr的版本信息、系统信息、JVM信息等。点击左侧导航栏中的下拉选择框,选择collection1,进入下图所示的页面。在该页面中又出现了一些链接,可以点击进行相应的操作,比如进行查询。

在简单介绍了Solr的启动以及页面后,现在来看看如何修改Solr的配置文件使得Nutch爬取的网页可以被Solr索引查询。首先备份${SOLR_HOME}/example/solr/conf/schema.xm文件,然后将Nutch目录中conf目录下的schema-solr4.xml复制到${SOLR_HOME}/example/solr/conf/中,并且重命名为schema.xm,若不修改则在启动Solr会报找不到schema.xm的错误而无法启动Solr。做完这些修改后运行java -jar start.jar 重新启动Solr,然后运行bin/crawl urls sina http://localhost: 8983/solr 2进行网页的爬取并在Solr上建立索引。在控制台中可以发现,当进行dedup作业时出现问题,该作业用于删除多余的副本确保被索引的urls的唯一性。如果有人也曾遇到过类似的问题,并成功的解决了,还请多多指教。该问题是在建立索引完成之后出现的,不会特别严重的影响查看索引结果,暂时略过,后续找到解决办法再更新文章。

SOLR dedup -> http://localhost:8983/solr
/home/hadoop/nutch-2.2.1/runtime/deploy/conf:/usr/java/jdk1.6.0_32/lib/tools.jar
13/12/20 20:23:28 INFO solr.SolrDeleteDuplicates: SolrDeleteDuplicates: starting...
13/12/20 20:23:28 INFO solr.SolrDeleteDuplicates: SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
13/12/20 20:23:37 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
13/12/20 20:23:47 INFO mapred.JobClient: Running job: job_201312201956_0007
13/12/20 20:23:48 INFO mapred.JobClient:  map 0% reduce 0%
13/12/20 20:24:22 INFO mapred.JobClient: Task Id : attempt_201312201956_0007_m_000000_0, Status : FAILED
java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormatat org.apache.hadoop.conf.Configuration.getClass(Configuration.java:857)at org.apache.hadoop.mapreduce.JobContext.getInputFormatClass(JobContext.java:187)at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:722)at org.apache.hadoop.mapred.MapTask.run(MapTask.java:364)at org.apache.hadoop.mapred.Child$4.run(Child.java:255)at java.security.AccessController.doPrivileged(Native Method)at javax.security.auth.Subject.doAs(Subject.java:396)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)at org.apache.hadoop.mapred.Child.main(Child.java:249)
Caused by: java.lang.ClassNotFoundException: org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormatat java.net.URLClassLoader$1.run(URLClassLoader.java:202)at java.security.AccessController.doPrivileged(Native Method)at java.net.URLClassLoader.findClass(URLClassLoader.java:190)at java.lang.ClassLoader.loadClass(ClassLoader.java:306)at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)at java.lang.ClassLoader.loadClass(ClassLoader.java:247)at java.lang.Class.forName0(Native Method)at java.lang.Class.forName(Class.java:247)at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:810)at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:855)... 8 more

作业完成后进入Solr的管理页面,现在可以查询已经爬取到的网页了。在上图中点击query链接,出现下图所示的页面,在该页面中不做任何修改,点击下方的查询按钮,以JSON方式显示索引的内容。

可以修改q中的参数查询包含特定内容的网页,也可以选择wt中的选项定制以JSON、XML、CSV等格式显示网页内容,是可以在fl中以逗号分隔的方式定制需要显示哪些字段。在q中设置title:hadoop查询title中包含hadoop的网页,执行结果如下图所示:

上面只介绍了Solr的相当简单的一部分功能,更多更强大的功能还需要进一步学习探索,并且solrdedup作业失败的问题也需要继续研究其根源并解决。

补充,solrdedup失败的解决办法可以通过在SolrDeleteDuplicates中的Job job = new Job(getConf(), "solrdedup");后添加下面的代码解决:

job.setJarByClass(SolrDeleteDuplicates.class);

这篇关于Nutch-2.2.1学习之七Nutch与Solr的集成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/582331

相关文章

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

Spring Boot 集成 Quartz 使用Cron 表达式实现定时任务

《SpringBoot集成Quartz使用Cron表达式实现定时任务》本文介绍了如何在SpringBoot项目中集成Quartz并使用Cron表达式进行任务调度,通过添加Quartz依赖、创... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

JAVA集成本地部署的DeepSeek的图文教程

《JAVA集成本地部署的DeepSeek的图文教程》本文主要介绍了JAVA集成本地部署的DeepSeek的图文教程,包含配置环境变量及下载DeepSeek-R1模型并启动,具有一定的参考价值,感兴趣的... 目录一、下载部署DeepSeek1.下载ollama2.下载DeepSeek-R1模型并启动 二、J

Docker部署Jenkins持续集成(CI)工具的实现

《Docker部署Jenkins持续集成(CI)工具的实现》Jenkins是一个流行的开源自动化工具,广泛应用于持续集成(CI)和持续交付(CD)的环境中,本文介绍了使用Docker部署Jenkins... 目录前言一、准备工作二、设置变量和目录结构三、配置 docker 权限和网络四、启动 Jenkins