首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
lucene4.5专题
lucene4.5源码分析系列:lucene的默认评分算法-向量空间模型(Vector Space Model)
在lucene4以前,一直都是使用经典的向量空间模型作为其检索模型,这种方式虽然统一了评分算法,简化了计算,但是带来的问题是很难去调整,一旦向量空间模型不适合,也很难去替换一种更好的算法。 而lucene4则将检索模型与事实上的搜索做了解耦和抽象,并且加入了另外几种检索模型的实现,其中就有经典的BM25。 经典的向量空间模型的理论基础及其在lucene中的应用 向量空间模型是信息
阅读更多...
lucene4.5源码分析系列:搜索过程
IndexSearcher是搜索的入口,主要提供的api都是关于search的。关于搜索,比较有意思的话题有这么几个: 如何计算打分,这个问题已经在空间向量模型一文中讨论过?如何从一个 搜索词得到一个Query对象?如何从 Query对象到评分器从而计算打分的?几个 重要的参数是如何在被组织起来计算的,比如n, filter, sort, collector等。另外, 分页是如何进行的?
阅读更多...