Elasticsearch-Suggest API

2023-10-18 13:59
文章标签 elasticsearch api suggest

本文主要是介绍Elasticsearch-Suggest API,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

什么是搜索建议

Elasticsearch Suggester API

Term Suggester

Phrase Suggester

The Complete Suggester

使用Completion Suggester的一些步骤

 Context Suggester

实现Context Suggester

精准度和召回率


什么是搜索建议

  • 现代的搜索引擎,一般会提供一个Suggest as you type 功能

  • 帮助用户在输入搜索的工程中,进行自动补全或者纠错.通过协助用户输入更加精确的关键词,提高后续搜索阶段文档匹配的长度

  • 在google上搜索,一开始会自动补全.当输入到一定长度,如果因为单词拼写错误无法补全,就会开始提示相似的词或者句子

Elasticsearch Suggester API

  • 搜索引擎中类似的功能,在ES中是通过Suggester API实现的

  • 原理:将输入的文本分解为Token,然后在索引的字典里查找相似的Term并返回

  • 根据不同的场景,ES设计了四种类别的Suggesters

    • Term & Phrase Suggester

    • Complete & Context Suggester

Term Suggester

  • Suggester就是一种特殊类型的搜索,"text"里是调用时候提供的文本,通常来自于用户界面上用户输入的内容

  • 用户输入的"lucen"是一个错误的拼写

  • 会到指定的字段"body"上搜索,当无法搜索到结果时(missing),返回建议的词

POST /atricles/_bulk
{"index":{}}
{"body":"lucene is very cool"}
{"index":{}}
{"body":"ES builds on top of lucene"}
{"index":{}}
{"body":"ES rocks"}
{"index":{}}
{"body":"es is the company behind ELK stack"}
{"index":{}}
{"body":"ELK stack rocks"}
{"index":{}}
{"body":"es is rock solid"}

POST /atricles/_search
{
  "size":1,
  "query": {
    "match": {
      "body": "lucen rock"
    }
  },
  "suggest": {
    "term-suggestion": {
      "text": "lucen rock",
      "term": {
        "suggest_mode": "missing",
        "field":"body"
      }
    }
  }
}

  • 搜索"lucen rock"

    • 每个建议都包含了一个算分,相似性是通过Levenshtein Edit Distance的算法来实现的.核心思想就是一个词改动多少字符就可以和另外一个词一致.提供了很多可选参数来控制相似性的模糊度.例如"max_edits"

  • 几种Suggestion Mode

    • Missing -- 如果索引中已经存在,就不提供建议(上面的rock就已经存在了,不会提供建议)

    • Polular -- 推荐出现频率更高的词

    • Always -- 无论是否存在,都提供建议

 POST /atricles/_search
{
  "size":1,
  "query": {
    "match": {
      "body": "lucen rock"
    }
  },
  "suggest": {
    "term-suggestion": {
      "text": "lucen rock",
      "term": {
        "suggest_mode": "popular",
        "field":"body"
      }
    }
  }
}

 POST /atricles/_search
{
  "size":1,
  "query": {
    "match": {
      "body": "lucen rock"
    }
  },
  "suggest": {
    "term-suggestion": {
      "text": "lucen hock",
      "term": {
        "suggest_mode": "always",
        "field":"body"
      }
    }
  }
}

POST /atricles/_search
{
  "size":1,
  "query": {
    "match": {
      "body": "lucen rock"
    }
  },
  "suggest": {
    "term-suggestion": {
      "text": "lucen hock",
      "term": {
        "suggest_mode": "always",
        "prefix_length":0,
        "field":"body"
      }
    }
  }

 

Phrase Suggester

  • Phrase Suggester在Term Suggester上增加了一些额外的逻辑

  • 一些参数

    • Suggest Mode : missing,popular,always

    • Max Errors : 最多可以拼错的Terms数

    • Confidence : 限制返回结果数,默认为1

  • 自定义高亮

"highlight":{
          "pre_tag":"<b id='d1' class='t1' style='color:red;font-size:18px;'>",
          "post_tag":"</b>"
        }

参考文档

  • Elasticsearch - phrase suggester - 听雨危楼 - 博客园 (cnblogs.com)

  • (31条消息) 09.phrase_suggester_寒夜-CSDN博客

The Complete Suggester

  • Completion Suggester提供了"自动完成"(Auto Complete)的功能,用户每输入一个字符,就需要及时发送一个查询请求到后台查找匹配项

  • 对性能要求比较苛刻,ElasticSearch采用了不同的数据结构,并非通过倒排索引来完成.而是将Analyze的数据编码成FST和索引放在一起存放.FST会被ES整个加载进内存,速度很快

  • FST只能用于前缀查找

使用Completion Suggester的一些步骤

  • 定义Mapping,使用"completion"type(针对某个字段)

  • 索引数据

  • 运行"suggest"查询,得到搜索建议

    • 在任意的查询字符串中增加pretty参数,会让Elasticsearch美化输出(pretty-print)JSON响应以便更加容易阅读。_source 字段不会被美化,它的样子与我们输入的一致。

 Context Suggester

  • Completion Suggester的扩展

  • 可以在搜索中加入更多的上下文信息,例如"star"

    • 咖啡相关 : 建议"Starbucks"

    • 电影相关 : "star wars"

实现Context Suggester

  • 可以定义两种类型的Context

    • Category --任意的字符串

    • GEO -- 地理位置信息

  • 实现Context Suggester的具体步骤
    • 定制一个 Mapping

  • 索引数据,并且为每个文档加入Context信息 如果 comment属于movies的上下文的时候就给他推荐"star wars";如果 comment属于coffee的上下文的时候就给他推荐"starbucks"

  • 结合Context进行Suggestion

精准度和召回率

  • 精确度

    • Completion > Phrase > Term

  • 召回率

    • Term > Phrase > Completion

  • 性能

    • Completion > Phrase > Term

这篇关于Elasticsearch-Suggest API的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/233014

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

【LabVIEW学习篇 - 21】:DLL与API的调用

文章目录 DLL与API调用DLLAPIDLL的调用 DLL与API调用 LabVIEW虽然已经足够强大,但不同的语言在不同领域都有着自己的优势,为了强强联合,LabVIEW提供了强大的外部程序接口能力,包括DLL、CIN(C语言接口)、ActiveX、.NET、MATLAB等等。通过DLL可以使用户很方便地调用C、C++、C#、VB等编程语言写的程序以及windows自带的大

如何更优雅地对接第三方API

如何更优雅地对接第三方API 本文所有示例完整代码地址:https://github.com/yu-linfeng/BlogRepositories/tree/master/repositories/third 我们在日常开发过程中,有不少场景会对接第三方的API,例如第三方账号登录,第三方服务等等。第三方服务会提供API或者SDK,我依稀记得早些年Maven还没那么广泛使用,通常要对接第三方

Java基础回顾系列-第五天-高级编程之API类库

Java基础回顾系列-第五天-高级编程之API类库 Java基础类库StringBufferStringBuilderStringCharSequence接口AutoCloseable接口RuntimeSystemCleaner对象克隆 数字操作类Math数学计算类Random随机数生成类BigInteger/BigDecimal大数字操作类 日期操作类DateSimpleDateForma

Restful API 原理以及实现

先说说API 再说啥是RESRFUL API之前,咱先说说啥是API吧。API大家应该都知道吧,简称接口嘛。随着现在移动互联网的火爆,手机软件,也就是APP几乎快爆棚了。几乎任何一个网站或者应用都会出一款iOS或者Android APP,相比网页版的体验,APP确实各方面性能要好很多。 那么现在问题来了。比如QQ空间网站,如果我想获取一个用户发的说说列表。 QQ空间网站里面需要这个功能。

京东物流查询|开发者调用API接口实现

快递聚合查询的优势 1、高效整合多种快递信息。2、实时动态更新。3、自动化管理流程。 聚合国内外1500家快递公司的物流信息查询服务,使用API接口查询京东物流的便捷步骤,首先选择专业的数据平台的快递API接口:物流快递查询API接口-单号查询API - 探数数据 以下示例是参考的示例代码: import requestsurl = "http://api.tanshuapi.com/a

WordPress开发中常用的工具或api文档

http://php.net/ http://httpd.apache.org/ https://wordpress.org/ https://cn.wordpress.org/ https://core.svn.wordpress.org/ zh-cn:开发者文档: https://codex.wordpress.org/zh-cn:%E5%BC%80%E5%8F%91%E8%80%

Java后端微服务架构下的API限流策略:Guava RateLimiter

Java后端微服务架构下的API限流策略:Guava RateLimiter 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在微服务架构中,API限流是保护服务不受过度使用和拒绝服务攻击的重要手段。Guava RateLimiter是Google开源的Java库中的一个组件,提供了简单易用的限流功能。 API限流概述 API限流通过控制请求的速率来防止

ElasticSearch的DSL查询⑤(ES数据聚合、DSL语法数据聚合、RestClient数据聚合)

目录 一、数据聚合 1.1 DSL实现聚合 1.1.1 Bucket聚合  1.1.2 带条件聚合 1.1.3 Metric聚合 1.1.4 总结 2.1 RestClient实现聚合 2.1.1 Bucket聚合 2.1.2 带条件聚合 2.2.3 Metric聚合 一、数据聚合 聚合(aggregations)可以让我们极其方便的实现对数据的统计、分析、运算。例如:

Docker远程连接和Docker Remote Api

在Docker生态系统中一共有3种API:Registry API、Docker Hub API、Docker Remote API 这三种API都是RESTful风格的。这里Remote API是通过程序与Docker进行集成和交互的核心内容。 Docker Remote API是由Docker守护进程提供的。默认情况下,Docker守护进程会绑定到一个所在宿主机的套接字:unix:///v