商品搜索引擎资料整理

2024-08-30 00:18

本文主要是介绍商品搜索引擎资料整理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、搜索引擎框架

搜索引擎Solr和ElasticSearch了解:http://blog.csdn.net/u013142781/article/details/51224988

Solr:
教程:http://blog.csdn.net/jediael_lu/article/category/2370109
书籍:Lucene In Action(第2版)中文版

ElasticSearch:

博客实例教程:http://www.eggtwo.com/news/detail/143

网页教程:http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html、http://udn.yyuap.com/doc/mastering-elasticsearch/chapter-5/54_README.html

书籍:Elasticsearch服务器开发(第2版)

安装插件:http://blog.csdn.net/wenqisun/article/details/47952199

最火搜索引擎:ElasticSearch详解与优化设计:http://www.aboutyun.com/thread-17078-1-1.html

Elastic中文社区 :http://elasticsearch.cn/

请问elasticsearch的自动发现节点机制是怎么实现的,原理是怎样?:https://www.zhihu.com/question/29360024

知乎为什么要自己开发日志聚合系统kids,而不用更简洁方便的ELK(elasticsearch+logstash+kibana)?: https://www.zhihu.com/topic/19899427

ElasticSearch 如何实现拼音检索:https://www.zhihu.com/question/39421759

五类Elasticsearch扩展性插件推荐:http://cloud.51cto.com/art/201505/476450.htm

Solr与ElasticSearch 比较:http://www.cnblogs.com/chowmin/articles/4629220.html

二、其他

分词:

常用的开源中文分词工具 :http://www.scholat.com/vpost.html?pid=4477

10大Java开源中文分词器的使用方法和分词效果对比:http://www.tuicool.com/articles/uYfy2q2

博主关于分词的一些整理:http://blog.csdn.net/u013142781/article/details/51182310

关于分词小宝鸽的一点思考:

关于搜索引擎,对比一号店,引发的思考

(1)分词必须采用细粒度,比如词库中存在“手机耳机”,用户输入“手机耳机”,但是商品信息中的字符串存在“手机入耳式耳机”,并不存在“手机耳机”连在一起的。这时候搜索不到结果,但是事实上,我们有用户想要找的商品。具体可以了解IK分词插件的智能分词和细粒度分词的区别。

(2)分词的时候,识别是否存在商品分类 包含这个字符串,或者这个字符串所有分出来的词。如果存在,我们锁定在这个分类下进行搜索。存在多个,我们去最短的那个。假设存在两个分类名字相同,如“苹果”既属于手机又属于水果,那么我们取二者的搜索结果,然后进行排序(排序过程中可能会根据购买热度等等,自然而然的,大部分是手机排在前面)。如果根据上面的文字无法识别分类,那么久不识别分类,直接利用关键字进行搜索。

(3)对于前端页面效果可以锁定一个分类或者是多个分类。假设根据第(2)点无法定位分类,但是根据搜索返回商品中,所有的商品均属于一个或者为数不多的几个分类,那么我们理应让用户知道,你的关键词我们搜索的结果仅出现在这几个分类中,你是否为你想要的结果?

(4)词库里面必须存在同义词,耳机=耳麦,手机壳=手机套,iphone=苹果等等。这个在商品搜索引擎里面尤为重要。

(5)假设用户输入的是拼音,后台应该将其转问中文。那对于用户输入拼音有拼错的情况呢?我们选择 包含用户输入字母数最多的词,如果最多的出现两个,那么我们取最短那个,这样的纠正率应该高达85%以上。如不明白多读几次理会一下。

(6)对于根据用户输入的字符串,分词后查询不到结果,尝试剔除一些词后再次搜索,然后提示给用户,根据用户输入的关键词查询不到结果,推荐剔除某些词后的结果。

(7)允许用户锁定在某个商品类目下,输入关键词搜索。跟没有锁定类目这两者需要区分开来。

(8)一般不要将查询结果直接到页面上,因为有些商品可能还没有更新到索引里面。可以尝试根据返回的商品ID再次查询数据库,当然这并不是完善的解决方案。不过这个问题确实存在。

商品搜索引擎整体结构相关:

美团推荐系统架构:http://www.jiagoushuo.com/article/1000040.html

浅谈搜索引擎的查重和去重 :http://www.jianshu.com/p/8f69930edf76

京东商品搜索架构设计 全量索引和增量索引:http://www.cnblogs.com/huangfox/p/5111713.html

搜索引擎 :http://baike.baidu.com/link?
url=FLrTcCBzvACYPXwrzQ9LusraXRDjl1TsjMnc1FgjNueGRSRsGHj-adOmcUs0waFAFKHckYfQTDqFoDIgOVLlxq

淘宝搜索关键词拆分原理和标题打造:http://blog.sina.com.cn/s/blog_4a9f9a6c0101bpd2.html

浅谈淘宝类目属性体系:商品搜索背后的逻辑架构:http://www.geekpark.net/topics/205894/

架构 | 京东商品搜索架构设计: http://www.cnblogs.com/huangfox/p/5111713.html

京东商城POP商品搜索原理:http://wenku.baidu.com/link?
url=i_BqXC3zJeBEvXsP3nnADTDJFa7gHYL_UTgAeojCOV0q5XRzkYugV3tmT5LiS91hHQtMsrX1U9fDPCyOGehCSFCtIXdbOsx99pQ67rhS0_C

京东11.11:商品搜索系统架构设计:http://www.infoq.com/cn/articles/jingdong-11-11-commodity-search-system-architecture-design/

智能提示&&输入联想:

Elasticsearch 实现联想输入搜索:http://www.656463.com/article/22Ibqu.htm

美团搜索-搜索引擎关键字智能提示的一种实现:http://www.cnblogs.com/huangfox/p/4146970.html

搜索关键字拼音智能提示实现:http://zhanshenny.iteye.com/blog/1923073

使用Mongodb的搜索拼音自动补全方案:http://www.2cto.com/database/201203/123450.html

小宝鸽关于智能提示&&输入联想的调研:http://blog.csdn.net/u013142781/article/details/51283910

这篇关于商品搜索引擎资料整理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1119262

相关文章

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

rtmp流媒体编程相关整理2013(crtmpserver,rtmpdump,x264,faac)

转自:http://blog.163.com/zhujiatc@126/blog/static/1834638201392335213119/ 相关资料在线版(不定时更新,其实也不会很多,也许一两个月也不会改) http://www.zhujiatc.esy.es/crtmpserver/index.htm 去年在这进行rtmp相关整理,其实内容早有了,只是整理一下看着方

笔记整理—内核!启动!—kernel部分(2)从汇编阶段到start_kernel

kernel起始与ENTRY(stext),和uboot一样,都是从汇编阶段开始的,因为对于kernel而言,还没进行栈的维护,所以无法使用c语言。_HEAD定义了后面代码属于段名为.head .text的段。         内核起始部分代码被解压代码调用,前面关于uboot的文章中有提到过(eg:zImage)。uboot启动是无条件的,只要代码的位置对,上电就工作,kern

JavaScript整理笔记

JavaScript笔记 JavaScriptJavaScript简介快速入门JavaScript用法基础语法注释关键字显示数据输出innerHTML innerText属性返回值的区别调试 数据类型和变量数据类型数字(Number)字符串(String)布尔值(Boolean)null(空值)和undefined(未定义)数组(Array)对象(Object)函数(Function) 变量

关于回调函数和钩子函数基础知识的整理

回调函数:Callback Function 什么是回调函数? 首先做一个形象的比喻:   你有一个任务,但是有一部分你不会做,或者说不愿做,所以我来帮你做这部分,你做你其它的任务工作或者等着我的消息,但是当我完成的时候我要通知你我做好了,你可以用了,我怎么通知你呢?你给我一部手机,让我做完后给你打电话,我就打给你了,你拿到我的成果加到你的工作中,继续完成其它的工作.这就叫回叫,手机

站长常用Shell脚本整理分享(全)

站长常用Shell脚本整理分享 站长常用Shell脚本整理分享1-10 站长常用Shell脚本整理分享11-20 站长常用Shell脚本整理分享21-30 站长常用Shell脚本整理分享31-40 站长常用Shell脚本整理分享41-50 站长常用Shell脚本整理分享51-59 长期更新

IEEE会议投稿资料汇总http://cadcg2015.nwpu.edu.cn/index.htm

最近投了篇IEEE的顶级会议文章,一下是比较有用的一些资料,以供参考。 1.会议主页:http://cadcg2015.nwpu.edu.cn/index.htm     (The 14th International Conference on Computer-Aided Design and Computer Graphics (CAD/Graphics 2015)) 2.I

ansible资料

ansible系列教程-强烈推荐看完ansible官方编写的例子ansible_uiJenkins配置ansiblegalaxy官方文档中文教程1中文教程2playbook进阶YAML语法fabric编写的自动化部署

Vert.x(vertx)入门资料

1.vert.x简介 vert.x 采用类似 Node.js 的 eventloop callback 机制,优势是 Eventloop 是单线程场景下几乎是最快的并发解决方案,但也需要周边生态的支持,比如 DbClient/HttpClient 这些跟 IO 打交道的 API 需要支持异步回调的风格,社区干脆就整合或者自己实现了。依赖注入的类库可以用 Guice,整体启动时间大概是同规模 sp

我自己常用的eclipse 快捷键整理

---------------- 我自己改的快捷键: 复制当前行单下一行  ctrl alt n   --------------------- 自带快捷键: 快速定位到一行  CTRL+L 向上(下)移动选中的行:ALT+UP/DOWN ARROW 删除行(Delete Line):CTRL+D CTRL + 1也很有用     ----------