本文主要是介绍七、 基于Nutch主题搜索引擎方案设计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
七、 基于Nutch主题搜索引擎方案设计
7.1主题搜索引擎
7.2 主题搜索引模块设计
7.2.1 系统组成
7.2.2 主题确立模块
。
7.2.3 优化初始种子模块
7.2.4 主题相关度分析模块
7.2.5 排序模块
7.3 Yahoo API 简介
7.4 基于Nutch主题搜索引擎方案
Nutch是基于lucene技术的,可能是最好的,并且可以在Apache许可下获得。它提供了一个完整的搜索引擎服务,用java语言完成,提供了一个合适的基点。在开始实施之前有两个任务必须完成。首先是对所提出的实现机制进行可行性研究。这包括分析构建过程中技术方案的风险因素;第二个前提是原型系统,这可能会占到项目一半的时间,原型系统的关键词集合由专家用户人工产生。
项目实施包含以下步骤:
1. 安装一个简单的Nutch搜索引擎,由于Nutch自身的插件机制特性,我们可以判断可以满足进行扩展的特定需求
2. 使用Yahoo API生成种子URL,并且放入一个Crawl文件。
3. 做一个简单的页面分析工具,用于产生基本的关键词。
4. 修改Nutch使之从基本页面集也就是Crawl文件开始爬行。
5. 修改Nutch使之对每个爬行页面调用相关性分析算法并停止爬行低于临界值的链接。
6. 修改Nutch使之与一个相关性引擎协调工作,取代PageRank等评价机制。
7. 实现页面相关性分析工具,使之连接到Nutch接口。
8. 合并这个相关性水平融入到Nutch框架,用于索引和评价。
9. 提供经典视图。
我们可以有下面的设计思路,从而建立基于Nutch的主题搜索引擎架构。
图7.2 基于Nutch的主题搜索引擎架构
这篇关于七、 基于Nutch主题搜索引擎方案设计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!