Lucene+Solr+ElasticSearch查询匹配优化

2024-05-15 03:32

本文主要是介绍Lucene+Solr+ElasticSearch查询匹配优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当我们在处理搜索业务时候,需求往往是灵活多变的,有时候我们需要精确匹配,有时候我们又需要全文检索,而有时候,我们又想匹配度高而且还能全文检索,这似乎是精确匹配和模糊匹配一个妥协的策略,没错这就是搜索引擎出现的目的,以往的数据库是没法解决这种问题的,数据库只能回答有,没有,存在,不存在,并不能在有和没有之间做一个完美的妥协,比如说能把最匹配最相关的结果放在topN,仅靠like模糊查询是解决不了这种问题的。 


Apache Lucene这个强大的全文检索核心包,提供了搜索引擎的核心组件,通过相关性评分算法(VSM/BM25),出色的了解决了相关性匹配问题,当然Solr和ElasticSearch构建在Lucene之上,自然也继承了这种优秀的能力。 

默认情况下,Lucene/Solr/ES的Boolean查询有三种查询策略: 
(1)必须匹配 -> must 
(2)必须不匹配 -> mustn't 
(3)至少匹配一个 ->should 

除此之外,对于分词字段,我们还可以通过 最小匹配查询(Minimum Should Match)来灵活控制查询策略 

举个例子: 北京奇虎科技有限公司 

使用IK最细粒度分词后内容:北京/奇虎/科技/有限公司/有限/有/限/公司 


我们可以通过defType=edismax&mm=100%25来控制term最小命中的个数,下面来看下mm参数的详细解释: 

语法一:mm=3  代表至少匹配3个term,不管总term有多少个,如果查询词分词后的term个数小于3,那么就以最小的这个term数为基准进行查询 
语法二:-2    允许返回的结果里面,最多有2个不匹配term,其他的必须都匹配,这是一种反向用法 
语法三:mm=75% 允许返回的结果里面,至少有75%匹配度,如果不能整除,则采取进一法来得到最小匹配个数,比如计算值=3.75,那么这个mm就等于3,如果等于0.6这个等于0 
语法四:mm=-25% 反向设置,返回的结果里面最多有25%的不匹配 
语法五:3<90%  如果一个字段分词后的term数,小于等于3,则要求全部匹配,如果大于3,则要求90%的匹配度 
语法六:2<-25% 9<-3  小于2个term,要求全部匹配,如果是3-9个要求100%-25%=75%匹配,如果大于9个,则最多允许有3个不匹配term出现 


情景1:查询北京奇虎+mm=3 能查询到北京奇虎科技有限公司 
情景2:查询北京奇虎360+mm=3 不能查询到北京奇虎科技有限公司 
情景3:查询北京奇虎360+mm=2 能查询到北京奇虎科技有限公司 
情景4:查询北京奇虎360+mm=80%(3*80%=2.4=2) 能查询到北京奇虎科技有限公司 
情景5:查询北京奇虎360+mm=-10%((3-3*0.1(减一法等0))=3)不能查询到北京奇虎科技有限公司 


总结: 

对于分词后term数少的,适合采用固定数进行查询限制优化查询 
对于分词后term数多的,适合采用百分比进行查询限制优化 
mm=0% 代表最少匹配查询词里面出现的任意一个term 
mm=100% 代表必须匹配查询词里面所有出现的term 

大家可在自己的场景中,不断反复测试,以找到合适的阈值,从而避免查询结果集过大,有太多不相关的数据或者查询结果集偏小漏掉一些相关的数据。 


参考资料: 
https://cwiki.apache.org/confluence/display/solr/The+DisMax+Query+Parser#TheDisMaxQueryParser-Themm(MinimumShouldMatch)Parameter  
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-minimum-should-match.html  

这篇关于Lucene+Solr+ElasticSearch查询匹配优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990683

相关文章

SpringBoot简单整合ElasticSearch实践

《SpringBoot简单整合ElasticSearch实践》Elasticsearch支持结构化和非结构化数据检索,通过索引创建和倒排索引文档,提高搜索效率,它基于Lucene封装,分为索引库、类型... 目录一:ElasticSearch支持对结构化和非结构化的数据进行检索二:ES的核心概念Index:

MySQL中between and的基本用法、范围查询示例详解

《MySQL中betweenand的基本用法、范围查询示例详解》BETWEENAND操作符在MySQL中用于选择在两个值之间的数据,包括边界值,它支持数值和日期类型,示例展示了如何使用BETWEEN... 目录一、between and语法二、使用示例2.1、betwphpeen and数值查询2.2、be

MyBatis-Plus使用动态表名分表查询的实现

《MyBatis-Plus使用动态表名分表查询的实现》本文主要介绍了MyBatis-Plus使用动态表名分表查询,主要是动态修改表名的几种常见场景,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录1. 引入依赖2. myBATis-plus配置3. TenantContext 类:租户上下文

Spring Boot基于 JWT 优化 Spring Security 无状态登录实战指南

《SpringBoot基于JWT优化SpringSecurity无状态登录实战指南》本文介绍如何使用JWT优化SpringSecurity实现无状态登录,提高接口安全性,并通过实际操作步骤... 目录Spring Boot 实战:基于 JWT 优化 Spring Security 无状态登录一、先搞懂:为什

MySQL基本表查询操作汇总之单表查询+多表操作大全

《MySQL基本表查询操作汇总之单表查询+多表操作大全》本文全面介绍了MySQL单表查询与多表操作的关键技术,包括基本语法、高级查询、表别名使用、多表连接及子查询等,并提供了丰富的实例,感兴趣的朋友跟... 目录一、单表查询整合(一)通用模版展示(二)举例说明(三)注意事项(四)Mapper简单举例简单查询

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

springboot+mybatis一对多查询+懒加载实例

《springboot+mybatis一对多查询+懒加载实例》文章介绍了如何在SpringBoot和MyBatis中实现一对多查询的懒加载,通过配置MyBatis的`fetchType`属性,可以全局... 目录springboot+myBATis一对多查询+懒加载parent相关代码child 相关代码懒

Java JAR 启动内存参数配置指南(从基础设置到性能优化)

《JavaJAR启动内存参数配置指南(从基础设置到性能优化)》在启动Java可执行JAR文件时,合理配置JVM内存参数是保障应用稳定性和性能的关键,本文将系统讲解如何通过命令行参数、环境变量等方式... 目录一、核心内存参数详解1.1 堆内存配置1.2 元空间配置(MetASPace)1.3 线程栈配置1.

在DataGrip中操作MySQL完整流程步骤(从登录到数据查询)

《在DataGrip中操作MySQL完整流程步骤(从登录到数据查询)》DataGrip是JetBrains公司出品的一款现代化数据库管理工具,支持多种数据库系统,包括MySQL,:本文主要介绍在D... 目录前言一、登录 mysql 服务器1.1 打开 DataGrip 并添加数据源1.2 配置 MySQL

Go语言中如何进行数据库查询操作

《Go语言中如何进行数据库查询操作》在Go语言中,与数据库交互通常通过使用数据库驱动来实现,Go语言支持多种数据库,如MySQL、PostgreSQL、SQLite等,每种数据库都有其对应的官方或第三... 查询函数QueryRow和Query详细对比特性QueryRowQuery返回值数量1个:*sql