本文主要是介绍搜索引擎工作原理(Nutch),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
二、搜索引擎工作原理
2.1 搜索引擎模块组成
一个典型的网络信息检索系统的系统架构由信息收集、信息处理和查询服务三个模块组成。
从具体运行方式上说,系统根据站点/网页的URL信息和网页之间的链接关系,利用网络蜘蛛在互联网上收集数据;收集的数据分别通过链接信息分析器和文本信息分析器处理,保存在链接数据库和文本索引数据库中,同时,网页质量评估器依据网页的链接关系和页面结构特征对页面质量进行评估,并将评估的结果保存在索引数据库中;查询服务器负责与用户的交互,它根据用户的检索需求,从索引数据库中读取对应的索引,并综合考虑查询相关性与页面质量评估结果之间的关系,给出查询结果列表反馈给用户。[1]
2.1.1 网信息收集模块
搜索器的信息收集模块包括“蜘蛛控制”和“网络蜘蛛”两部分,“蜘蛛”这个称呼形象的描述出了信息收集模块在网络数据形成的“Web”上进行信息获取的功能。总体而言,网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历Web的目的。而其工作策略一般则可以分为累积式抓取(cumulative craw
这篇关于搜索引擎工作原理(Nutch)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!