搜索引擎的检索模型-查询与文档的相关度计算

本文主要是介绍搜索引擎的检索模型-查询与文档的相关度计算，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. 检索模型概述

搜索结果排序时搜索引擎最核心的部分，很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多，但最主要的两个因素是用户查询和网页内容的相关度，以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。

判断网页内容是否与用户査询相关，这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础，为量化相关性提供了一种数学模型，是对查询词和文档之间进行相似度计算的框架和方法。其本质就是相关度建模。如图所示，检索模型所在搜索引擎系统架构位置：

当然检索模型理论研究存在理想化的隐含假设，及即假设用户需求已经通过查询非常清晰明确地表达出来了，所以检索模型的任务不涉及到对用户需求建模。但实际上这个和实际相差较远，即使相同的查询词，不同用户的需求目的可能差异很大，而检索模型对此无能为力。

2. 检索模型分类

大学学习的《数学模型》（姜启源第三版），现在还有点印象。数学模型将现实问题归结为相应的数学问题，并在此基础上利用数学的概念、方法和理论进行深入的分析和研究，从而从定性或定量的角度来刻画实际问题，并为解决现实问题提供精确的数据或可靠的指导。
所以我们从所使用的数学方法上分：

1）基于集合论的IR模型(Set Theoretic models)

布尔模型

基于模糊集的模型

扩展布尔模型

2）基于代数论的IR模型(Algebraic models)

向量空间模型

潜性语义索引模型

神经网络模型

3）基于概率统计的IR模型(Probabilistic models)

回归模型

概率模型

语言模型建模IR模型

推理网络模型

信任度网络模型

此外还有基于统计的机器学习排序算法。
这里主要介绍布尔模型，向量空间模型，概率模型，语言模型，机器学习排序算法

3. 布尔模型

布尔模型：

是最简单的信息检索模型，是基于集合理论和布尔代数的一种简单的检索模型。

基本思想：

文档和用户查询由其包含的单词集合来表示，两者的相似性则通过布尔代数运算来进行判定；

相似度计算：

查询布尔表达式和所有文档的布尔表达式进行匹配，匹配成功的文档的得分为1，否则为0。

如查询词：

苹果 and （iphone OR Ipad2）

文档集合：

D1：IPhone 5于9月13号问世。

D2: 苹果公司于9月13号发布新一代IPhone。

D3：Ipad2将于3月11日在美上市。

D4：Iphone和ipad2的外观设计精美时尚

D5：80后90后都喜欢iphone，但不喜欢吃苹果。

那么单词与文档关系如下图:

这篇关于搜索引擎的检索模型-查询与文档的相关度计算的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述

2. 检索模型分类

3. 布尔模型

相关文章

MySQL高级查询之JOIN、子查询、窗口函数实际案例

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

MySQL中的交叉连接、自然连接和内连接查询详解

mysql的基础语句和外键查询及其语句详解(推荐)

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Mybatis 传参与排序模糊查询功能实现

Java利用docx4j+Freemarker生成word文档

使用C#代码在PDF文档中添加、删除和替换图片

详解C#如何提取PDF文档中的图片

Java的IO模型、Netty原理解析