[Elasticsearch] 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升

本文主要是介绍[Elasticsearch] 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Lucene中的Practical Scoring Function

对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean Model),TF/IDF以及向量空间模型(Vector Space Model)来将它们结合在一起,用来收集匹配的文档和对它们进行分值计算。

像下面这样的多词条查询:

GET /my_index/doc/_search
{"query": {"match": {"text": "quick fox"}}
}

在内部被重写成下面这样:

GET /my_index/doc/_search
{"query": {"bool": {"should": [{"term": { "text": "quick" }},{"term": { "text": "fox"   }}]}}
}

bool查询实现了布尔模型,在这个例子中,只有包含了词条quick,词条fox或者两者都包含的文档才会被返回。

一旦一份文档匹配了一个查询,Lucene就会为该查询计算它的分值,然后将每个匹配词条的分值结合起来。用来计算分值的公式叫做Practical Scoring Function。它看起来有点吓人,但是不要退却 - 公式中的绝大多数部分你已经知道了。下面我们会介绍它引入的一些新元素。

1   score(q,d)  = 
2            queryNorm(q)  
3          · coord(q,d)    
4          · ∑ (           
5                tf(t in d)   
6              · idf(t)²      
7              · t.getBoost() 
8              · norm(t,d)    
9            ) (t in q) 

每行的意义如下:

  1. score(q,d)是文档d对于查询q的相关度分值。
  2. queryNorm(q)是查询归约因子(Query Normalization Factor),是新添加的部分。
  3. coord(q,d)是Coordination Factor,是新添加的部分。
  4. 文档d中每个词条t对于查询q的权重之和。
  5. tf(t in d)是文档d中的词条t的词条频度(Term Frequency)。
  6. idf(t)是词条t的倒排索引频度(Inverse Document Frequency)
  7. t.getBoost()是适用于查询的提升(Boost),是新添加的部分。
  8. norm(t,d)是字段长度归约(Field-length Norm),可能结合了索引期间字段提升(Index-time Field-level Boost),是新添加的部分。

你应该知道score,tf以及idf的意思。queryNorm,coord,t.getBoost以及norm是新添加的。

在本章的稍后我们会讨论查询期间提升(Query-time Boosting),首先对查询归约,Coordination以及索引期间字段级别提升进行解释。

查询归约因子(Query Normalization Factor)

查询归约因子(queryNorm)会试图去对一个查询进行归约,从而让多个查询的结果能够进行比较。

TIP

虽然查询归约的目的是让不同查询的结果能够比较,但是它的效果不怎么好。相关度_score的唯一目的是将当前查询的结果以正确的顺序被排序。你不应该尝试去比较不同查询得到的相关度分值。

该因子会在查询开始阶段就被计算。实际的计算取决于查询本身,但是一个典型的实现如下所示:

queryNorm = 1 / √sumOfSquaredWeights

sumOfSquaredWeights通过对查询中每个词条的IDF进行累加,然后取其平方根得到的。

TIP

相同的查询归约因子会被适用在每份文档上,你也没有办法改变它。总而言之,它是可以被忽略的。

Query Coordination

Coordination因子(coord)被用来奖励那些包含了更多查询词条的文档。文档中出现了越多的查询词条,那么该文档就越可能是该查询的一个高质量匹配。

加入我们查询了quick brown fox,每个词条的权重都是1.5。没有Coordination因子时,分值可能会是文档中每个词条的权重之和。比如:

  • 含有fox的文档 -> 分值:1.5
  • 含有quick fox的文档 -> 分值:3.0
  • 含有quick brown fox的文档 -> 分值:4.5

而Coordination因子会将分值乘以文档中匹配了的词条的数量,然后除以查询中的总词条数。使用了Coordination因子后,分值是这样的:

  • 含有fox的文档 -> 分值:1.5 * 1 / 3 = 0.5
  • 含有quick fox的文档 -> 分值:3.0 * 2 / 3 = 2.0
  • 含有quick brown fox的文档 -> 分值:4.5 * 3 / 3 = 4.5

以上的结果中,含有所有三个词条的文档的分值会比仅含有两个词条的文档高出许多。

需要记住对于quick brown fox的查询会被bool查询重写如下:

GET /_search
{"query": {"bool": {"should": [{ "term": { "text": "quick" }},{ "term": { "text": "brown" }},{ "term": { "text": "fox"   }}]}}
}

bool查询会对所有should查询子句默认启用查询Coordination,但是你可以禁用它。为什么你需要禁用它呢?好吧,通常的答案是,并不需要。查询Coordination通常都起了正面作用。当你使用bool查询来将多个像match这样的高级查询(High-level Query)包装在一起时,启用Coordination也是有意义的。匹配的查询子句越多,你的搜索陈请求和返回的文档之间的匹配程度就越高。

但是,在某些高级用例中,禁用Coordination也是有其意义的。比如你正在查询同义词jump,leap和hop。你不需要在意这些同义词出现了多少次,因为它们表达了相同的概念。实际上,只有其中的一个可能会出现。此时,禁用Coordination因子就是一个不错的选择:

GET /_search
{"query": {"bool": {"disable_coord": true,"should": [{ "term": { "text": "jump" }},{ "term": { "text": "hop"  }},{ "term": { "text": "leap" }}]}}
}

当你使用了同义词(参考同义词(Synonyms)),这正是在内部发生的:重写的查询会为同义词禁用Coordination。多数禁用Coordination的用例都会被自动地处理;你根本无需担心它。

索引期间字段级别提升(Index-time Field-level Boosting)

现在来讨论一下字段提升 - 让该字段比其它字段更重要一些 - 通过在查询期间使用查询期间提升(Query-time Boosting)。在索引期间对某个字段进行提升也是可能的。实际上,该提升会适用于字段的每个词条上,而不是在字段本身。

为了在尽可能少占用空间的前提下,将提升值存储到索引中,索引期间字段级别提升会和字段长度归约一起以一个字节被保存在索引中。它是之前公式中norm(t,d)返回的值。

警告

我们强烈建议不要使用字段级别索引期间提升的原因如下:

  • 将此提升和字段长度归约存储在一个字节中意味着字段长度归约会损失精度。结果是ES不能区分一个含有三个单词的字段和一个含有五个单词的字段。
  • 为了修改索引期间提升,你不得不对所有文档重索引。而查询期间的提升则可以因查询而异。
  • 如果一个使用了索引期间提升的字段是多值字段(Multivalue Field),那么提升值会为每一个值进行乘法操作,导致该字段的权重飙升。

查询期间提升(Query-time Boosting)更简单,简洁和灵活。

解释完了查询归约,Coordination以及索引期间提升,现在可以开始讨论对影响相关度计算最有用的工具:查询期间提升。


查询期间提升(Query-time Boosting)

在调整查询子句优先级(Prioritizing Clauses)一节中,我们已经介绍过如何在搜索期间使用boost参数为一个查询子句增加权重。比如:

GET /_search
{"query": {"bool": {"should": [{"match": {"title": {"query": "quick brown fox","boost": 2 }}},{"match": { "content": "quick brown fox"}}]}}
}

查询期间提升是用来调优相关度的主要工具。任何类型的查询都接受boost参数。将boost设为2并不是简单地将最终的_score加倍;确切的提升值会经过规范化以及一些内部优化得到。但是,它也意味着一个提升值为2的子句比一个提升值为1的子句要重要两倍。

实际上,没有任何公式能够决定对某个特定的查询子句,"正确的"提升值应该是多少。它是通过尝试来得到的。记住boost仅仅是相关度分值中的一个因素;它需要和其它因素竞争。比如在上面的例子中,title字段相对于content字段,大概已经有一个"自然的"提升了,该提升来自字段长度归约(Field-length Norm)(因为标题通常会比相关内容要短一些),因此不要因为你认为某个字段应该被提升而盲目地对它进行提升。适用一个提升值然后检查得到的结果,再进行修正。

提升索引(Boosting an Index)

当在多个索引中搜索时,你可以通过indices_boost参数对整个索引进行提升。在下面的例子中,会给予最近索引中的文档更多的权重:

GET /docs_2014_*/_search 
{"indices_boost": { "docs_2014_10": 3,"docs_2014_09": 2},"query": {"match": {"text": "quick brown fox"}}
}

该多索引搜索(Multi-index Search)会查询所有以docs_2014_开头的索引。 索引docs_2014_10中的文档的提升值为3,索引docs_2014_09中的文档的提升值为2,其它索引中的文档的提升值为默认值1。

t.getBoost()

这些提升值在Lucene的Practical Scoring Function中通过t.getBoost()元素表达。提升并不是其在查询DSL出现的地方被适用的。相反,任何的提升值都会被合并然后传递到每个词条上。t.getBoost()方法返回的是适用于词条本身上的提升值,或者是适用于上层查询的提升值。

TIP

实际上,阅读解释API的输出本身比上述的说明更复杂。你在解释中根本看不到boost值或者t.getBoost()。提升被融合到了适用于特定词条上的queryNorm中。尽管我们说过queryNorm对任何词条都是相同的,但是对于提升过的词条而言,queryNorm会更高一些。


这篇关于[Elasticsearch] 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/463930

相关文章

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

ural 1026. Questions and Answers 查询

1026. Questions and Answers Time limit: 2.0 second Memory limit: 64 MB Background The database of the Pentagon contains a top-secret information. We don’t know what the information is — you

Mybatis中的like查询

<if test="templateName != null and templateName != ''">AND template_name LIKE CONCAT('%',#{templateName,jdbcType=VARCHAR},'%')</if>

java学习,进阶,提升

http://how2j.cn/k/hutool/hutool-brief/1930.html?p=73689

JAVA用最简单的方法来构建一个高可用的服务端,提升系统可用性

一、什么是提升系统的高可用性 JAVA服务端,顾名思义就是23体验网为用户提供服务的。停工时间,就是不能向用户提供服务的时间。高可用,就是系统具有高度可用性,尽量减少停工时间。如何用最简单的方法来搭建一个高效率可用的服务端JAVA呢? 停工的原因一般有: 服务器故障。例如服务器宕机,服务器网络出现问题,机房或者机架出现问题等;访问量急剧上升,导致服务器压力过大导致访问量急剧上升的原因;时间和

控制反转 的种类

之前对控制反转的定义和解释都不是很清晰。最近翻书发现在《Pro Spring 5》(免费电子版在文章最后)有一段非常不错的解释。记录一下,有道翻译贴出来方便查看。如有请直接跳过中文,看后面的原文。 控制反转的类型 控制反转的类型您可能想知道为什么有两种类型的IoC,以及为什么这些类型被进一步划分为不同的实现。这个问题似乎没有明确的答案;当然,不同的类型提供了一定程度的灵活性,但

深入解析秒杀业务中的核心问题 —— 从并发控制到事务管理

深入解析秒杀业务中的核心问题 —— 从并发控制到事务管理 秒杀系统是应对高并发、高压力下的典型业务场景,涉及到并发控制、库存管理、事务管理等多个关键技术点。本文将深入剖析秒杀商品业务中常见的几个核心问题,包括 AOP 事务管理、同步锁机制、乐观锁、CAS 操作,以及用户限购策略。通过这些技术的结合,确保秒杀系统在高并发场景下的稳定性和一致性。 1. AOP 代理对象与事务管理 在秒杀商品

AutoGen Function Call 函数调用解析(一)

目录 一、AutoGen Function Call 1.1 register_for_llm 注册调用 1.2 register_for_execution 注册执行 1.3 三种注册方法 1.3.1 函数定义和注册分开 1.3.2 定义函数时注册 1.3.3  register_function 函数注册 二、实例 本文主要对 AutoGen Function Call