本文主要是介绍在网上看到的关于es的querystring的问题,值得留意,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
问题
今天,我们的业务给我报了一个问题,说商品"视丽 花样系列美瞳"此品搜索不到,于是,我问业务要了搜索关键词和商品名称一样,发觉还真是搜索不到,遂排查问题,先给大家报告一下我的环境
【环境】
es的版本:0.90.2
中文分词:ansj
操作系统:CentOS6.5
【测试过程】
首先,我测试了分词接口,看分词器是否正常工作:
_analyze?text=视丽 花样系列美瞳彩片&analyzer=index_ansj 分词结果为:视、丽、花样、系列、美、美瞳、瞳、彩、彩片、片
_analyze?text=视丽 花样系列美瞳彩片&analyzer=query_ansj 分词结果为:视、丽、花样、系列、美瞳、彩片
纳尼,query_ansj分词完毕是index_ansj的子集啊!为嘛没有出现结果?(解释一下,美瞳和彩片这两个词是我加入的,但对问题没有影响)
于是,根据我的经验,我把视丽后面的空格去掉,query_ansj分词结果没有变化。
然后在query_string的"query"使用无空格的语句
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品华丽的出现了。
再把空格加上
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品又没了
于是我猜想,难到是es的query_string先按空格分词了,再把结果调用分词器吗?(其实这样的问题发生过很多次了)
紧接着,再测
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果为:花样、系列、美瞳彩、片
好吧,不是index_ansj的子集了,目前,我认为是es的query_string先按空格分了词,再调用分词器导致了这个结果
于是,我尝试把词做为一个整体
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 带空格没有数据
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 不带空格还是没有(汗,打滚,到底怎么回事!!)
难到引号不是这么用的?上单引号(json里单引号是合法的字符串)
{ "query_string": { "query": "'视丽 花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } }带空格依然没有数据
{ "query_string": { "query": "'视丽花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } } 不带空格有数据了
好吧,加不加单引号没什么变化。
到这里,问题出来了,es的query_string怎么样才能把"query"参数里的值做为一个整体?
接下来的思考,我尝试把美瞳和彩片加入到用户字典,但影响不大,
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果依然为:花样、系列、美瞳彩、片,注意到了吗?就是这个美瞳彩引发的血案。
脑袋里浮现出解决方案,1,索引和查询使用同一种分词器,2在ansj的歧义词典里加入歧义词
解决方案1:
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj" } }有结果
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj" } }没有结果(纳尼?到底怎么了)
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj" } }有结果
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj" } }有结果(到这我已经彻底凌乱了)
我又去试了下分词接口
_analyze?text=花样系列美瞳彩片&analyzer=index_ansj 分词结果为 :花样、系列、美、美瞳、美瞳彩、瞳、彩、彩片、片
原来这样分词也会出现美瞳彩
现在我困惑的是,假如\"可以做为一个完整的词,为什么query_string的"analyzer"为"query_ansj"的时候,并未出现结果,还有那个万恶的美瞳彩是肿么回事。最后用了方案2,加入了歧义词典美瞳彩片\t美瞳\tnr\t彩片\tv完美解决了问题。
以下是我的mapping配置及分词配置
index:
analysis:
analyzer:
index_ansj:
alias: [ansj_index_analyzer]
type: ansj_index
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
query_ansj:
alias: [ansj_query_analyzer]
type: ansj_query
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
ansj插件地址: https://github.com/4onni/elasticsearch-analysis-ansj
问题解答
其实,这个问题,不是ES的BUG,其实是分词器的问题吧,
视丽 花样系列美瞳彩片 分词没有出现“ 美瞳彩”,而 花样系列美瞳彩片分词出现“ 美瞳彩”,最根本的问题出现在这里啊!其实和有没有空格没有关系,query_string是会处理空格,3.5以前记着是处理为了and!但是这个的问题,我理解是分词器出现了问题!
其实你, default_operator": "or",应该会出来!
还有就是\"的问题,加\"不是说把内容当成整体处理,加\"的功能是,queyparse将会把其按照pharsequery处理,同时默认的slop为0,说白了会把\"\",内容分词后,按照term匹配,然后将所有term减slop为0的检索出来!
同时,我们以前用 lucene时,空格都是自己处理的,比如将” 视丽 花样系列美瞳彩片“转化为 ” 视丽 OR 花样系列美瞳彩片“
这篇关于在网上看到的关于es的querystring的问题,值得留意的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!