solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索

2023-10-29 23:59

本文主要是介绍solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

生产环境:

solr4.7.2

jdk1.6

lucene4.7.2

mmseg4j-core-1.10 (https://github.com/chenlb/mmseg4j-core.git)

mmseg-solr-2.0 (https://github.com/chenlb/mmseg4j-solr.git)

pinyin4j-2.5.0

pinyinAnalyzer (https://github.com/liangbaolin/pinyinAnalyzer.git)

说明:

  1. 由于mmseg4j本身对max-word模式下分词做了最小只能是2个词的限制,而作者又没有好的办法,所以我们针对自身应用做了一些调整
  2. 由于pinyinAnalyzer是针对solr5.0以上的版本,所以我们对其源码做了调整,将其整合到了4.7.2中;
  3. 由于pinyinAnalyzer中转换拼音简称的时候使用的是pinyin4j包中的getPinyinShortCollection方法,而该方法输出简拼时会多输出一个字母(如:“重庆”的输出为[cq,zq,c,z],而其中的单个字母对索引影响极大);因此将其替换为getPinyinShort方法(如:“重庆”的输出为cq,zq)

pinyinAnalyzer源码修改:(这里只列主要的PinyinTokenFilter.java)



需求:

  1. 需要搜索拼音能搜到对应企业,如搜索”xiaomi”可以查询出“小米通讯技术有限公司”
  2. 搜索“xiaomi”可以高亮汉字“小米”
  3. 可以使用拼音简称搜索,如搜索“cq”或“zq”可以搜到包含“重庆”的数据

方案分析:

开始考虑两种方案:

方案一:在应用中将中文搜索词转为拼音,对于关键词统一以英文或拼音的形式搜索

方案二:通过分词手段,在建立索引时直接将分词后的关键词对应的全拼(包括多音字全拼)、简拼(如cq,zq)一并写入索引;

              查询时,只需要以同样规则将搜索词分词后再加入拼音,这样既可以搜索中文,又可以搜索拼音

说明:因为方案二的调整仅限于索引层面,而对应用本身毫无影响,所以最终选择方案二

 

前期含拼音分词测试:

1.分析词“重庆”、查询词“重庆”,分析结果如下:


2.分析词“重庆”、查询词“cq”,分析结果如下:

3.分析词“重庆”、查询词“chongqing”,分析结果如下:

 

solr配置:

1.将修改过源码的pinyinAnalyzer.jar、msseg4j-core.jar放于solr4.7.2对应lib目录

2.将pinyin4j-2.5.0.jar放于solr4.7.2对应目录下

3.配置schema.xml:

   a.定义字段类型

   <fieldType name="text_mmseg4j_pinyin" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="false" >

        <analyzer type="index">

            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>

            <filter class="utn.index.mmseg.solr.PinyinTokenFilterFactory"  minTermLength="2" pinyinAll="true"  outChinese="true"/>

        </analyzer>

        <analyzer type="query">

            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>

            <filter class="utn.index.mmseg.solr.PinyinTokenFilterFactory"  minTermLength="2" outChinese="true" pingyinAll="true"/>

        </analyzer>

    </fieldType>

   b.将对应field的type改为text_mmseg4j_pinyin

   c.重启solr

 

修改后的源码及jar包见附件

这篇关于solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/304272

相关文章

AJAX请求上传下载进度监控实现方式

《AJAX请求上传下载进度监控实现方式》在日常Web开发中,AJAX(AsynchronousJavaScriptandXML)被广泛用于异步请求数据,而无需刷新整个页面,:本文主要介绍AJAX请... 目录1. 前言2. 基于XMLHttpRequest的进度监控2.1 基础版文件上传监控2.2 增强版多

Redis分片集群的实现

《Redis分片集群的实现》Redis分片集群是一种将Redis数据库分散到多个节点上的方式,以提供更高的性能和可伸缩性,本文主要介绍了Redis分片集群的实现,具有一定的参考价值,感兴趣的可以了解一... 目录1. Redis Cluster的核心概念哈希槽(Hash Slots)主从复制与故障转移2.

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

使用Python实现一键隐藏屏幕并锁定输入

《使用Python实现一键隐藏屏幕并锁定输入》本文主要介绍了使用Python编写一个一键隐藏屏幕并锁定输入的黑科技程序,能够在指定热键触发后立即遮挡屏幕,并禁止一切键盘鼠标输入,这样就再也不用担心自己... 目录1. 概述2. 功能亮点3.代码实现4.使用方法5. 展示效果6. 代码优化与拓展7. 总结1.

Mybatis 传参与排序模糊查询功能实现

《Mybatis传参与排序模糊查询功能实现》:本文主要介绍Mybatis传参与排序模糊查询功能实现,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、#{ }和${ }传参的区别二、排序三、like查询四、数据库连接池五、mysql 开发企业规范一、#{ }和${ }传参的

Docker镜像修改hosts及dockerfile修改hosts文件的实现方式

《Docker镜像修改hosts及dockerfile修改hosts文件的实现方式》:本文主要介绍Docker镜像修改hosts及dockerfile修改hosts文件的实现方式,具有很好的参考价... 目录docker镜像修改hosts及dockerfile修改hosts文件准备 dockerfile 文

基于SpringBoot+Mybatis实现Mysql分表

《基于SpringBoot+Mybatis实现Mysql分表》这篇文章主要为大家详细介绍了基于SpringBoot+Mybatis实现Mysql分表的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录基本思路定义注解创建ThreadLocal创建拦截器业务处理基本思路1.根据创建时间字段按年进

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整