lucene4.5专题

lucene4.5源码分析系列:lucene的默认评分算法-向量空间模型(Vector Space Model)

在lucene4以前,一直都是使用经典的向量空间模型作为其检索模型,这种方式虽然统一了评分算法,简化了计算,但是带来的问题是很难去调整,一旦向量空间模型不适合,也很难去替换一种更好的算法。   而lucene4则将检索模型与事实上的搜索做了解耦和抽象,并且加入了另外几种检索模型的实现,其中就有经典的BM25。   经典的向量空间模型的理论基础及其在lucene中的应用   向量空间模型是信息

lucene4.5源码分析系列:搜索过程

IndexSearcher是搜索的入口,主要提供的api都是关于search的。关于搜索,比较有意思的话题有这么几个: 如何计算打分,这个问题已经在空间向量模型一文中讨论过?如何从一个 搜索词得到一个Query对象?如何从 Query对象到评分器从而计算打分的?几个 重要的参数是如何在被组织起来计算的,比如n, filter, sort, collector等。另外, 分页是如何进行的?