ElasticSearch原理(系列)- match_phrase、match、prefix、wildcard比较

2024-05-07 08:08

本文主要是介绍ElasticSearch原理(系列)- match_phrase、match、prefix、wildcard比较,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

match

GET /my_index/address/_search
{query: {match:"hello world"}
}

句子中包含helloworld的都会被搜索出,比如下面的句子都会被搜索到:

1.hello tom, do you know me
2.see the world

match_phrase

GET /my_index/address/_search
{query: {match_phrase:"hello world"}
}

也就是说hello world 必须相邻才能被搜索出来,比如下面的句子:

1.Hello World tom, do you know me // 能搜到
2.see the world // 搜不到
3.Hello tom // 搜不到

match_phrase slop

GET /my_index/address/_search
{query: {match_phrase:{content:"hello world", slop: 2}}
}

可以通过指定slot来控制移动词数。这里中间间隔的词数<2才能搜到。对于下面的例子:

1.hello world // 能搜到
2.hello es world // 能搜索到
3.hello tom es world // 不能搜到
4.hello lity do my world // 搜不到 3>2

match_phrase原理

match_phrase执行过程:
1.如match搜索一样进行分词,
2.对分词后的单词到field中去进行搜索(多个term匹配)。这一步返回每个单词对应的doc,并返回这些单词在对应的doc中的位置,
3.对返回的doc进行第一步的筛选,找到每个单词都在同一个field的doc。
4.对第3步进行筛选后的doc进行再一次的筛选,选回位置符合要求的doc。比如,对于match_phrase,就是找到后一个单词的位置比前一个单词的位置大1。或者移动次数<slot的文档。
5.proximity match(使用slot)原理一样,只是第四位对位置进行筛选时的方法不同。

比如要搜索“hello world”

  1. 分词为 hello 和 world
  2. 分别对term hello和world去搜索。返回两者匹配到的文档。
  3. 第一次筛选,取两个的交集。
  4. 继续筛选,对于match_phrase,就是找到后一个单词world的位置比前一个单词hello的位置大1的文档

prefix

前缀搜索
它会对分词后的term进行前缀搜索。

  • 它不会分析要搜索字符串,传入的前缀就是想要查找的前缀
  • 默认状态下,前缀查询不做相关度分数计算,它只是将所有匹配的文档返回,然后赋予所有相关分数值为1。它的行为更像是一个过滤器而不是查询。两者实际的区别就是过滤器是可以被缓存的,而前缀查询不行。
  • 只能找到反向索引中存在的术语

prefix的原理:
需要遍历所有倒排索引,并比较每个term是否已所指定的前缀开头。
比如:

Term:          Doc IDs:
-------------------------
"SW50BE"    |  5
"W1F7HW"    |  3
"W1V3DG"    |  1
"W2F8HW"    |  2
"WC1N1LZ"   |  4
-------------------------GET /my_index/address/_search
{"query": {"prefix": {"postcode": "W1"}}
}

prefix原理

prefix搜索过程:
为了支持前缀匹配,查询会做以下事情:

  1. 扫描术语列表并查找到第一个以 W1 开始的术语。
  2. 搜集关联的ID
  3. 移动到下一个术语
  4. 如果这个术语也是以 W1 开头,查询跳回到第二步再重复执行,直到下一个术语不以 W1 为止。

如果以w1开头的term很多,那么会有严重的性能问题。但是如果term比较小集合,可以放心使用。

wildcard

模糊查询

  • 工作原理和prefix相同,只不过它在1不是只比较开头,它能支持更为复杂的匹配模式。
  • 它使用标准的 shell 模糊查询:? 匹配任意字符,* 匹配0个或多个字符。
    GET /my_index/address/_search
    {"query": {"regexp": {"postcode": "W[0-9].+" #1}}
    }
    

这也意味着我们需要注意与前缀查询中相同的性能问题,执行这些查询可能会消耗非常多的资源,所以我们需要避免使用左模糊这样的模式匹配(如,foo 或 .foo 这样的正则式)

注意:
prefix、wildcard 和 regrep 查询是基于术语操作的,如果我们用它们来查询分析过的字段(analyzed field),他们会检查字段里面的每个术语,而不是将字段作为整体进行处理。

match_phrase_prefix

实时模糊搜索
这种查询的行为与 match_phrase 查询一致,但是它将查询字符串的最后一个词作为前缀(prefix)使用。

比如:

{"match_phrase_prefix" : {"brand": "johnnie walker bl"}
}

下面的句子可能被搜索到:

  • johnnie walker blll
  • johnnie walker bl33
  • johnnie walker blyu

查询步骤:

  • johnnie walker
  • 跟着 一个以 bl 开始的词(prefix)

与 match_phrase 一样,它也可以接受 slop 参数让相对词序位置不那么严格:

{"match_phrase_prefix" : {"brand" : {"query": "walker johnnie bl", #1"slop":  10}}
}

下面的句子可能被搜索到:

  • johnnie ee walker blll
  • johnnie aa walker bl33
  • johnnie cc gg walker blyu

我们可以通过设置 max_expansions 参数来限制前缀扩展的影响,一个合理的值是可能是50:

{"match_phrase_prefix" : {"brand" : {"query":"johnnie walker bl","max_expansions": 50}}
}

参数max_expansions控制着可以与前缀匹配的术语的数量

另一个即时搜索的方法是,使用 Ngram部分匹配, 这种方法会增加索引的开销,但是会加快查询速度。具体可以自行查阅。

这篇关于ElasticSearch原理(系列)- match_phrase、match、prefix、wildcard比较的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966789

相关文章

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和