Block-Max-Maxscore(Lucene 9.10.0)

2024-06-22 05:36
文章标签 block max maxscore lucene 9.10

本文主要是介绍Block-Max-Maxscore(Lucene 9.10.0),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Lucene中基于论文:Optimizing Top-k Document Retrieval Strategies for Block-Max Indexes 实现了Block-Max-Maxscore (BMM) 算法,用来优化关键字之间只有OR关系,并且minShouldMatch <= 1时的查询。比如有查询条件为:term1 OR term2 OR term3,那么文档中至少包含其中一个term就认为是满足查询条件。

算法概述

该算法通过对每个term的倒排表排序,排序规则为最大分数/倒排表长度,将高分倒排表作为必要倒排表,低分倒排表作为非必要倒排表。先遍历必要倒排表的文档ID,计算部分评分,如果部分评分加上非必要倒排表的最大分数之和仍低于阈值,则跳过该文档。否则,进行完整评分,包括非必要倒排表的评分。这样,算法减少了不必要的计算操作,因为它避免了对所有文档进行评分,只关注最有可能进入top-k结果的文档。

Lucene中BMM算法的处理逻辑基本跟论文中是一致的,结合上文的算法概述,我们通过以下三个步骤介绍该算法在Lucene中的实现:

  1. 计算最大分数(Maxscore)
  2. 选择必要倒排表(essential posting)跟非必要倒排表(non-essential posting)
  3. 遍历必要倒排表中的文档,选择合适的文档号

算法实现

计算最大分数(Maxscore)

算法名Block-Max-Maxscore中的block-max指的就是将倒排表划分为多个连续区间,每个区间即一个block最大分数就是在每个block中最大的文档打分值。

由于在查询期间计算这个区间内所有的文档打分值然后选出最大值是昂贵的,因此Lucene提供了Impact机制,使得在索引期间先挑选出部分候选者,能保证最高的文档打分值只会出现于这些候选者中。在查询期间计算这些候选者,找出最大分数

关于Impact的完整介绍可以阅读文章:索引文件的读取(十二)、ImpactsDISI。本文中我们简述下Impact机制。

Impact

图1:

从Lucene打分公式的注释可以看出:

  • 如果norm相等,那么freq较大对应的文档打分值会相等或者更高
  • 如果freq相等,那么norm较小对应的文档打分值会相等或者更高

因此在索引期间,我们不需要真正的调用打分公式,而是简单的比较term在每一篇文档中的freq和norm,就可以筛选出候选者。也就是freq相等时,norm最小,或者norm相等时,freq最大的文档作为候选者,将他们的freq跟norm信息写入到索引文件中:

图2:

随后在查询阶段,我们就可以根据索引文件中所有的freq和norm,调用图1的打分公式,计算出最终的最大分数

完整内容见:Block-Max-Maxscore(Lucene 9.10.0) | Lu Xugang的小屋

这篇关于Block-Max-Maxscore(Lucene 9.10.0)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083434

相关文章

[ip核][vivado]Block Menory Gennerator 学习

<刘东华的xilinx系列FPGA芯片IP核详解>读书摘录: 1. 2. 3.

Flink SQL因类型错误导致MAX和MIN计算错误

背景 最近在做数据分析,用Flink SQL来做分析工具,因数据源的数据存在不太规范的数据格式,因此我需要通过SQL函数把我需要的数据值从VARCHAR类型的字段中把数据提取出来,然后再做MAX、MIN、SUM这些统计。怎料SUM算出来的结果准确无误,而MAX和MIN算出来的结果却始终不正确,最后发现原来是我用SQL函数提取VARCHAR类型的字段的数据,也是VARCHAR类型,所以导致MAX、

LUCENE 3.6 学习笔记

目前,主流的全文索引工具有:Lucene , Sphinx , Solr , ElasticSearch。其中Solr和Elastic Search都是基于Lucene的。Sphinx不是 apache的项目,如果你想把Sphinx放到某个商业性的项目中,你就得买个商业许可证。          此文章为个人学习备忘之用,仅适合lucene的初学者参考阅读。至于lucene能做什么,自己百度就

Lucene的一个简单的标准测试(Lucene包基于3.5版本的)

Lucene编程一般分为:索引、分词、搜索 索引源代码: package lucene的一个标准测试;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;

485. Max Consecutive Ones 最大连续1的个数

https://leetcode-cn.com/problems/max-consecutive-ones/description/ 思路:用一个累加器count对所有元素求和,一旦遇到0就清零.用res记录下count的最大值,即可知道序列中最长的连续1有多少. int findMaxConsecutiveOnes(vector<int>& nums) {int count = 0;int

torch/lib/libgomp-d22c30c5.so.1: cannot allocate memory in static TLS block的正解

torch/lib/libgomp-4dbbc2f2.so.1.0.0: cannot allocate memory in static TLS block的正解 只需要一行命令即可解决 export LD_PRELOAD=/home/ma-user/anaconda3/envs/MindSpore/lib/python3.9/site-packages/torch/lib/../../to

vm.max_map_count是什么?起到什么作用

vm.max_map_count 是 Linux 内核中的一个参数,它决定了一个进程可以拥有的最大内存映射区域数。内存映射区域是指内存映射文件、匿名内存映射等。这个参数对于一些应用程序(如 Elasticsearch)特别重要,因为它们在运行时会创建大量的内存映射区域。 详细解释 内存映射(Memory Mapping) 内存映射是一种将文件或设备的内容映射到进程的地址空间的机制。通过内存映

五十一、openlayers官网示例Layer Min/Max Resolution解析——设置图层最大分辨率,超过最大值换另一个图层显示

使用minResolution、maxResolution分辨率来设置图层显示最大分辨率。  <template><div class="box"><h1>Layer Min/Max Resolution</h1><div id="map" class="map"></div></div></template><script>import Map from "ol/Map.js";im

基于lucene的搜索方案

说是电子商务搜索架构方案,其实就是lucene.net的应用,公司庙小,人少,也就自己平时看看,以前做过一点例子,这样就被拉上去写架构方案了。我这个懒惰的家伙,在网上疯狂的搜集搜索架构方面的东西,因为做做架构,暂时没写代码,每天就看人家博客,结果两个星期了才弄了个大概的草图,这不清明节过后就要详细方案了,现在只能把我的草图分享一下,希望大家板砖伺候,闷在家里鼓捣比较郁闷啊,效率太低。

全文搜索Lucene.Net优化

像www.verycd.com、博客园、淘宝、京东都有实现站内搜索功能,站内搜索无论在性能和用户体验上都非常不错,本节,通过使用Lucene.Net来实现站内搜索。 演示效果预览如下图10-22~10-24所示。 图10-22   图10-23   图10-24 在10.4节,已经完成了搜索的第一个版本,但是还有许多地方需要优化。比如说,我要统计关键词搜索的频率