本文主要是介绍solr入门之使用Solr完成拼写纠错的实现思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1,1 大致的实现思路 当收集到搜索词是,进行查询,查询数量低于一定的阀值时进行拼写纠错后查询出更多的结果 分析: 汉语纠错考虑多输入法问题,最大是同音字错误,多音字错误及输入有误 考虑实现两个部分,一部分使用拼音进行同音字纠错 一部分使用最小编辑距离进行纠错 同音字优先 |
1.2 纠错步骤: 1.2.1 使用同音字匹配 库中要查询的字段先用pinyin4j转换为拼音 将查询的关键词使用pinyin4j转为拼音 去库中查询 因为是同音字的原因肯定会命中 根据返回结果和查询条件取出正确的汉字(这一步未想到怎么很好的去实现),淘宝这里做的比较好,京东做的不行,我现在占时想到的是用最大匹配去做,将库中查询域中的汉字分词后存入一个collecting中,存入对应的汉字,和拼音. 使用查询条件中的词先用最大词去匹配,这里最大词数做个限制为7,不然结果太多了, 最大词对应的拼音如果能匹配到库中的term,就得到了一个纠错词列表.如果得不到再取出从第一位到倒数 |
这篇关于solr入门之使用Solr完成拼写纠错的实现思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!