如何基于 Elasticsearch 实现排序沉底或前置

2024-06-13 08:12

本文主要是介绍如何基于 Elasticsearch 实现排序沉底或前置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在搜索场景的应用中,存在希望根据某个或某些字段来调整排序评分,从而实现排序沉底或置顶效果的使用需求。以商机管理中的扫街场景为例,当我们在扫街场景中需要寻找一个商户时,希望这个商户离的近、GMV 潜力大、被他人跟进过的次数越少越好。在策略上离的近在排序中的权重要比 GMV 潜力大更大,因为我们希望就近拜访,在距离差不多的情况下优先拜访能带来更多 GMV 的商家。

  • 如果这个商家是一个“激励商家”且高转化意愿,可能需要对这样的商家在排序上做置顶;

  • 如果这个商家已经被其他人重复开发过了,那这样的商户开发成本就会比较大,被他人跟进的次数越多,排序应该更靠后,所以就需要实现沉底的效果。

下文将介绍 ES 所能够支持的丰富多样的排序能力,以及不同排序能力所具体适用的场景。

提升查询权重 - Boost

在查询时使用 Boost 参数能让一个查询语句比其他语句更重要。所以在相对简单的场景下,用这种方式可以实现低改动成本、快速变更。在这里需要注意的是任何类型的查询都能接受 Boost 参数,Boost 只是对 _score 的一个影响因子,将 Boost 参数设置为2,并不代表 _score 是原来的 2 倍。当没有显示设置 Boost 时,默认值为 1。

GET /_search
{"query":{"bool":{"should":[{"match":{"title":{"query":"elastic search","boost": 2}}},{"match":{ 2"content":"elastic search"}}]}}
}

修改查询相关度 - 组合查询

查询场景:要查询文档中包含 Elasticsearch or (Golang or Go) or function_score 的文档。

GET /_search
{"query":{"bool":{"should":[{"term":{"content":"elasticsearch"}},{"term":{"content":"Golang"}},{"term":{"content":"Go"}},{"term":{"content":"function_score"}}]}}
}

虽然上述查询能把只要包含了 or 条件中的所有文档都查询出来,而且每个条件的重要程度都一样。但实际 Golang or Go 是一个组合条件,和其他 2 个条件是并列的关系,所以下面是更好的写法。

用 Bool 查询把 Golang or Go 包起来,这样现在的 Golang or Go 跟其他两个条件就处于顶层相互竞争的关系了。原来每个词的重要性是 25%,现在 Elasticsearch 和 function_score 重要性各占 33.3%, Golang or Go 加起来占 33.3%。

GET /_search
{"query":{"bool":{"should":[{   "term":{"content":"elasticsearch"}},{   "term":{"content":"function_score"}},{"bool":{"should":[{"term":{"content":"Golang"}},{"term":{"content":"Go"}}]}}]}}
}

排序沉底 - Boosting 查询

查询场景:文档中要包含 Elasticsearch,但不希望包含 MySQL。

  • 方案一:使用 must_not

在这个方案里使用的 must_not 过于严格,会把包含了 MySQL 的文档排除出去。但如果一个文档中包含了很多 Elasticsearch,只是恰好包含了一个 MySQL,那就错过了一个“好”的文档。

GET /_search
{"query":{"bool":{"must":{"match":{"content":"elasticsearch"}},"must_not":{"match":{"content":"mysql"}}}}
}
  • 方案二:用 Boosting 查询

通过正向查询确定希望文档匹配哪些内容;在负向查询中,文档如果匹配了这些内容,那么对 _score 需要减分。减分的权重由 negative_boost 来控制,是一个 0-1 的数值。最终的评分 new_score = 正向查询的score * negative_boost。

GET /_search
{"query":{"boosting":{"positive":{"match":{"content":"elasticsearch"}},"negative":{"match":{"content":"mysql"}},"negative_boost":0.8}}
}

多查询评分一致 - constant_score 查询

某些场景下,我们可能并不关心 TF/IDF,只关心这个词是否在文档中出现过,比如出差找一个酒店,希望尽可能有如下设施:WIFI、Gym(健身房)、Breakfast(早餐)。

  • 方案一:match 查询

这种查询,实际还是用 TF/IDF,会整体去考虑这些词在酒店描述中出现的是否频繁。但实际用户可能并不关心出现是否频繁,只关心这些设施是否尽可能包含了,且包含得越多越好。

GET /_search
{"query":{"match":{ "hotel_desc":"WIFI Gym Breadfast"}}
}
  • 方案二:constant_score 查询

通过 constant_score 查询,酒店描述中匹配了一个设施评分就进行 +1,设施匹配的越多评分就越高。但不会因为在酒店描述中多次提到 WIFI 评分就提升,因为每个设施的评分最多也只有 1 分。但可能每个设施的重要程度不一样,有些设施更有价值,那么我们就可以为不同的设施增加不同的权重。而给每个权重设置查询权重就是最前面讲的 Boost 参数。

GET /_search
{"query":{"bool":{"should":[{"constant_score":{"query":{"match":{"hotel_desc":"WIFI"}}}},{"constant_score":{"query":{"match":{"hotel_desc":"Gym"}},"boost":2}},{"constant_score":{"query":{"match":{"hotel_desc":"Breakfast"}}}}]}}
}

constant_score 查询的更多应用

上文 Boosting Query 中提到 negative_boost 可以降低原来的评分,但如果 Positive 正向查询中用的是 Filter 查询,在根本就没有评分的情况下,可以把 Filter 查询改为 Term 或 Match 查询,但是对于只要过滤不需要评分的查询,比如过滤价格的查询,应该尽可能用 Filter 查询,可利用缓存、跳过评分,执行速度更快。这个时候,也可以用 constant_score 把 Filter 查询包含进去。

GET /_search
{"query":{"boosting":{"positive":{"constant_score":{"filter":{"term":{"price":50}}}},"negative":{"match":{"content":"mysql"}},"negative_boost":0.8}}
}

控制评分的终极武器 - function_score 查询

function_score 查询最适用的场景:一个正向影响因子,一个负向影响因子,比如跟 votes(投票数)和 date(日期)结合起来,投票数越高的越排前面,日期越早的越排后面。

基本概念

  • weight:为每个文档应用一个简单而不被规范化的权重提升值:当 weight 为 2 时,最终结果为 2 * _score。

  • field_value_factor:使用这个值来修改_score,如将 votes 热度作为考虑因素。

  • random_score:为每个用户都使用一个不同的随机评分对结果排序,但对某一具体用户来说,看到的顺序始终是一致的。

  • 衰减函数 - linear、exp、gauss:将浮动值结合到评分_score中,例如结果文档的最新发布时间,结合经纬度的距离,给文档一个综合评分。

  • script_score:如果需求超出以上函数能够支持的范围,可以自定义脚本来控制评分。

按热度提升权重

查询场景:POI 查询,希望将 POI 在抖音的搜索热度高的排在前面,同时根据 POI 名字全文搜索时,作为主要的排序依据。

用 function_score 包含主查询和函数,fields_value_factor 函数会被应用到每个被主查询查出来的文档上,每个文档的 douyin_hot 字段必须有值供函数计算,如果没有必须使用 missing 属性来提供默认值。

如此配置后,每个文档的最终评分 _score 修改为:new_score = old_score * number_of douyin_hot,这个结果其实是不符合预期的,因为抖音热度的值一般很大,会完全覆盖掉原来的评分。

GET /_search
{"query":{"function_score":{"query":{"match": {"query":"烧烤","fields":"poi_name"}},"field_value_factor":{"field":"douyin_hot","missing": 0}}}
}
 
Modifier 函数

其中一种优化方式是使用 Modifier 来平滑 douyin_hot 的值,比如热度 0 和热度 1 的差别应该比热度 100 和热度 101 的差别更大,这里可以应用 modifier: "log1p",实际含义是:new_score = old_score * log( 1 + number of douyin_hot )。Modifier 可选的值有:none(默认状态)、log、log1p、log2p、ln、ln1p、ln2p、square、sqrt、reciprocal。如下图,使用 Modifier: log1p 后评分曲线就会平缓很多。

Factor 调节因子

上面通过 Modifier 平滑了 douyin_hot 的值,如果仍然认为辅助因子的影响力不够,曲线过于平缓,那就可以通过 Factor 进行调节。添加了 Factor 后,得到的结果是双倍效果,评分如下:new_score = old_score * log ( 1 + factor * number of douyin_hot )。

GET /_search
{"query":{"function_score":{"query":{"match": {"query":"烧烤","fields":"poi_name"}},"field_value_factor":{"field":"douyin_hot", "missing": 0,"modifier":"log1p","factor":2}}}
}
 
Boost_mode 权重模式

上面在算 new_score 时,都是在 old_score 的基础上乘一个值,如果这个值还是很大评分就会放大很多。因此可以通过 boost_mode 来控制新老分数的结合方式。通过下图可以看到用加和的评分结合方式,评分曲线就会平滑很多。

  • multiply:乘积,默认方式, new_score = old_score * 函数值。这个方式很容易放大老的评分。

  • sum:加和,new_score = old_score + 函数值。这是比较常用的方式。

  • min:取较小值,new_score = min(old_score, 函数值)。

  • max:取最大值。

  • replace:函数值代替 old_score。

Max_boost 权重上限

限制函数的最大效果是起到一个保护的作用,避免辅助评分太高完全压过主查询的评分。这里不管field_value_factor 如何进行计算,函数值最大不会超过 1.5,由此就起到一个保护的作用。

GET /_search
{"query":{"function_score":{"query":{"match": {"query":"烧烤","fields":"poi_name"}},"field_value_factor":{"field":"douyin_hot", "missing": 0,"modifier":"log1p","factor":2},"boost_mode":"sum","max_boost":1.5}}
}

越接近越好 - 衰减函数

使用场景:以选择酒店为例,用户可能会考虑远近、价格,如果位置在景区里而且价格也可以接受,那也在选择范围内;如果位置离游玩的位置近,差价可以抵平路途使用的钱,这也是可以选择的。所以酒店的排序,不会是单一维度的,很多都是“智能”排序的。function_score 提供了衰减函数使我们可以在多个维度之间做出权衡。

有三种衰减函数 - Linear 线性、Exp 指数、Gauss 高斯,可以操作数值、时间、经纬度,接受如下参数:

  • origin:中心点或最佳值,落在 origin 上,评分为 1.0。

  • offset:以原点为中心,设置一个非零的偏移量 Offset 覆盖一个数值范围,在这个范围内,评分都是 1.0。

  • scale:衰减率,即一个文档远离 [ origin-offset, origin+offset ] 范围时,评分改变的速度。

  • decay:从 origin 衰减到 scale 位置时,评分的值,默认是 0.5。

    • 如下图,origin 是 40,offset 是5,scale 也设置为 5,decay=0.5,标识当值偏移到 [ origin - offset - scale, origin + offset + scale ] 时,评分 = decay = 0.5,这样就决定了曲线的陡度。

 
GET /_search
{"query": {"function_score":{"functions":[{"gauss":{"location":{"origin":{"lat":10.1, "lon":0.11},"offset":"1km","scale":"2km"}}},{"gauss":{"price":{"origin":"200","offset":"50","scale":"30"}},"weight":2},]}}
}

总结

通过以上介绍我们可以了解到 ES 可支持的排序能力还是非常丰富的,我们要实现置顶或沉底效果,并不能非黑即白的选择,更多的场景中需要根据实际需要做多个能力的组合,尽管 function_score 表现优异,但越复杂的查询对 ES 的查询压力也越大,当数据量很大时必须要权衡性能和排序效果。上线前,也需要在仿真环境中验证大数据量下的性能表现。

这篇关于如何基于 Elasticsearch 实现排序沉底或前置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1056755

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略 1. 特权模式限制2. 宿主机资源隔离3. 用户和组管理4. 权限提升控制5. SELinux配置 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes的PodSecurityPolicy(PSP)是一个关键的安全特性,它在Pod创建之前实施安全策略,确保P