在网上看到的关于es的querystring的问题,值得留意

2023-11-05 16:48

本文主要是介绍在网上看到的关于es的querystring的问题,值得留意,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

今天,我们的业务给我报了一个问题,说商品"视丽 花样系列美瞳"此品搜索不到,于是,我问业务要了搜索关键词和商品名称一样,发觉还真是搜索不到,遂排查问题,先给大家报告一下我的环境


【环境】
es的版本:0.90.2
中文分词:ansj
操作系统:CentOS6.5

【测试过程】
首先,我测试了分词接口,看分词器是否正常工作:
_analyze?text=视丽 花样系列美瞳彩片&analyzer=index_ansj 分词结果为:视、丽、花样、系列、美、美瞳、瞳、彩、彩片、片
_analyze?text=视丽 花样系列美瞳彩片&analyzer=query_ansj 分词结果为:视、丽、花样、系列、美瞳、彩片
纳尼,query_ansj分词完毕是index_ansj的子集啊!为嘛没有出现结果?(解释一下,美瞳和彩片这两个词是我加入的,但对问题没有影响)

于是,根据我的经验,我把视丽后面的空格去掉,query_ansj分词结果没有变化。

然后在query_string的"query"使用无空格的语句
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品华丽的出现了。

再把空格加上
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品又没了

于是我猜想,难到是es的query_string先按空格分词了,再把结果调用分词器吗?(其实这样的问题发生过很多次了)
紧接着,再测
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果为:花样、系列、美瞳彩、片
好吧,不是index_ansj的子集了,目前,我认为是es的query_string先按空格分了词,再调用分词器导致了这个结果
于是,我尝试把词做为一个整体
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 带空格没有数据
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 不带空格还是没有(汗,打滚,到底怎么回事!!)

难到引号不是这么用的?上单引号(json里单引号是合法的字符串)
{ "query_string": { "query": "'视丽 花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } }带空格依然没有数据
{ "query_string": { "query": "'视丽花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } } 不带空格有数据了
好吧,加不加单引号没什么变化。
到这里,问题出来了,es的query_string怎么样才能把"query"参数里的值做为一个整体?

接下来的思考,我尝试把美瞳和彩片加入到用户字典,但影响不大,
      _analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果依然为:花样、系列、美瞳彩、片,注意到了吗?就是这个美瞳彩引发的血案。
       脑袋里浮现出解决方案,1,索引和查询使用同一种分词器,2在ansj的歧义词典里加入歧义词
       
       解决方案1:
        { "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果
        { "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }没有结果(纳尼?到底怎么了)
        { "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果
       { "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果(到这我已经彻底凌乱了)

       我又去试了下分词接口
        _analyze?text=花样系列美瞳彩片&analyzer=index_ansj 分词结果为 :花样、系列、美、美瞳、美瞳彩、瞳、彩、彩片、片
       原来这样分词也会出现美瞳彩

        现在我困惑的是,假如\"可以做为一个完整的词,为什么query_string的"analyzer"为"query_ansj"的时候,并未出现结果,还有那个万恶的美瞳彩是肿么回事。最后用了方案2,加入了歧义词典美瞳彩片\t美瞳\tnr\t彩片\tv完美解决了问题。

      以下是我的mapping配置及分词配置
       
  • name: {
    • typestring
    • index_analyzerindex_ansj
    • search_analyzerquery_ansj
    }

    index:
analysis:
analyzer:
index_ansj:
alias: [ansj_index_analyzer]
type: ansj_index
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
query_ansj:
alias: [ansj_query_analyzer]
type: ansj_query
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term

ansj插件地址: https://github.com/4onni/elasticsearch-analysis-ansj




问题解答

其实,这个问题,不是ES的BUG,其实是分词器的问题吧,

视丽 花样系列美瞳彩片  分词没有出现“ 美瞳彩”,而 花样系列美瞳彩片分词出现“ 美瞳彩”,最根本的问题出现在这里啊!
其实和有没有空格没有关系,query_string是会处理空格,3.5以前记着是处理为了and!但是这个的问题,我理解是分词器出现了问题!
其实你,
default_operator": "or",应该会出来!

还有就是\"的问题,加\"不是说把内容当成整体处理,加\"的功能是,queyparse将会把其按照pharsequery处理,同时默认的slop为0,说白了会把\"\",内容分词后,按照term匹配,然后将所有term减slop为0的检索出来!


同时,我们以前用 lucene时,空格都是自己处理的,比如将”
视丽 花样系列美瞳彩片“转化为 视丽 OR 花样系列美瞳彩片“

这篇关于在网上看到的关于es的querystring的问题,值得留意的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/351175

相关文章

WiFi6时代来临! 华三H3C NX54路由器还值得购买吗?

《WiFi6时代来临!华三H3CNX54路由器还值得购买吗?》WiFi6时代已经来临,众多路由器厂商也纷纷推出了兼容WiFi6协议的路由器,今天我们将深入体验H3CNX54路由器,这款由知名企业... 随着科技的发展,WiFi6逐渐走进了我们的日常生活之中,相比WiFi5来说,WiFi6拥有更高的带宽、更高

Flask解决指定端口无法生效问题

《Flask解决指定端口无法生效问题》文章讲述了在使用PyCharm开发Flask应用时,启动地址与手动指定的IP端口不一致的问题,通过修改PyCharm的运行配置,将Flask项目的运行模式从Fla... 目录android问题重现解决方案问题重现手动指定的IP端口是app.run(host='0.0.

Seata之分布式事务问题及解决方案

《Seata之分布式事务问题及解决方案》:本文主要介绍Seata之分布式事务问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Seata–分布式事务解决方案简介同类产品对比环境搭建1.微服务2.SQL3.seata-server4.微服务配置事务模式1

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

Spring MVC跨域问题及解决

《SpringMVC跨域问题及解决》:本文主要介绍SpringMVC跨域问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录跨域问题不同的域同源策略解决方法1.CORS2.jsONP3.局部解决方案4.全局解决方法总结跨域问题不同的域协议、域名、端口

SpringBoot自定义注解如何解决公共字段填充问题

《SpringBoot自定义注解如何解决公共字段填充问题》本文介绍了在系统开发中,如何使用AOP切面编程实现公共字段自动填充的功能,从而简化代码,通过自定义注解和切面类,可以统一处理创建时间和修改时间... 目录1.1 问题分析1.2 实现思路1.3 代码开发1.3.1 步骤一1.3.2 步骤二1.3.3

基于.NET编写工具类解决JSON乱码问题

《基于.NET编写工具类解决JSON乱码问题》在开发过程中,我们经常会遇到JSON数据处理的问题,尤其是在数据传输和解析过程中,很容易出现编码错误导致的乱码问题,下面我们就来编写一个.NET工具类来解... 目录问题背景核心原理工具类实现使用示例总结在开发过程中,我们经常会遇到jsON数据处理的问题,尤其是

springboot3.4和mybatis plus的版本问题的解决

《springboot3.4和mybatisplus的版本问题的解决》本文主要介绍了springboot3.4和mybatisplus的版本问题的解决,主要由于SpringBoot3.4与MyBat... 报错1:spring-boot-starter/3.4.0/spring-boot-starter-

在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题记录

《在SpringBoot中使用异步线程时的HttpServletRequest复用问题记录》文章讨论了在SpringBoot中使用异步线程时,由于HttpServletRequest复用导致... 目录一、问题描述:异步线程操作导致请求复用时 Cookie 解析失败1. 场景背景2. 问题根源二、问题详细分