Lucence倒排索引

2024-09-06 09:58
文章标签 索引 倒排 lucence

本文主要是介绍Lucence倒排索引,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

带着问题探索:

  • 全文检索,为什么要全文检索?
  • 什么是lucence?
  • 什么是倒排索引?

一、全文检索

要了解全文检索首先需要了解:结构化数据与非结构化数据,以及半结构化数据,这三种数据构成了我们生活中所有数据的组成形式。

 结构化数据非机构化数据半结构化数据
含义有固定格式的的数据无固定格式的数据有一定格式的数据
举例数据库中的数据文章,邮件,博客内容XML,HTML文件
查询方式sqlgoogle,baidu搜索,linux下的grep命令,window搜索文件转化为半结构化或结构化数据查询

全文搜索的方式:

  1. 顺序扫描法:搜索词,将文章从头到尾,一个字符一个字符扫描,文件很大,耗时;搜索文件,或是将一个系统中的文件一个一个遍历查找,文件数量很多,耗时。linux中的grep命令就是这样的操作。

  2. 全文检索:将非结构化的数据,一部分数据提取出来,重新组织,使其有一定的结构性。(这部分提取出来的重新组织的数据称为索引)然后对此索引进行搜索。

举例:

  1. 如书中的目录,每一个章节的标题,都相当于是书的索引,标题所对应的内容都是非结构化的数据。标题也是从这些内容中提取出来的数据,我们将标题拿出来构建索引,指向对应的页数,便可快速找到对应的非结构化数据。
  2. 字典。

二、Lucence

lucence是Apache中一个开源的全文搜索引擎工具包,是一个全文搜索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。

目的是为开发人员提供一个简单医用的工具包。方便在目标系统中实现全文检索的功能,或者基于此建立完整的全文搜索引擎。

三、倒排索引

倒排索引就源于应用中需要根据属性的值,来查找记录的需求。这种索引表中的每一项都包括一个属性值和具有该属性值的个记录的位置。

由于倒排索引是由属性值确定记录的位置,而不是由记录确定属性值,因而称为倒排索引(inverted index)。

搜索引擎的关键步骤:

         

  1. 取得关键词:将文章做分词操作,取得关键词与文章的位置
  2. 建立倒排索引:建立索引,与文章的关系

举例:

两篇短文:

  1. I have an apple;
  2. The apple is bad,he has a bucket apples;

倒排索引构建:

  • 分词器根据分词规则分析,每个文章中的词,如标记所示,取得关键词。
  • 构建倒排索引。

最终会形成这样的倒排索引关键词频率位置结构:

关键词文章号[出现频率]出现位置
apple

1[1],

2[2]

3,

2,6

bad2[1]2
bucket2[1]5
have

1[1],

2[1]

2,3
he2[1]3
i1[1]1

实现:

lucence将上面三列分别生成了词典文件(Term Dictionary),频率文件(frequencies),位置文件(positions)。

词典文件还存了指向频率文件和位置文件的指针。

 

这篇关于Lucence倒排索引的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141702

相关文章

C# foreach 循环中获取索引的实现方式

《C#foreach循环中获取索引的实现方式》:本文主要介绍C#foreach循环中获取索引的实现方式,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、手动维护索引变量二、LINQ Select + 元组解构三、扩展方法封装索引四、使用 for 循环替代

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

StarRocks索引详解(最新整理)

《StarRocks索引详解(最新整理)》StarRocks支持多种索引类型,包括主键索引、前缀索引、Bitmap索引和Bloomfilter索引,这些索引类型适用于不同场景,如唯一性约束、减少索引空... 目录1. 主键索引(Primary Key Index)2. 前缀索引(Prefix Index /

MySQL进阶之路索引失效的11种情况详析

《MySQL进阶之路索引失效的11种情况详析》:本文主要介绍MySQL查询优化中的11种常见情况,包括索引的使用和优化策略,通过这些策略,开发者可以显著提升查询性能,需要的朋友可以参考下... 目录前言图示1. 使用不等式操作符(!=, <, >)2. 使用 OR 连接多个条件3. 对索引字段进行计算操作4

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

Pandas中多重索引技巧的实现

《Pandas中多重索引技巧的实现》Pandas中的多重索引功能强大,适用于处理多维数据,本文就来介绍一下多重索引技巧,具有一定的参考价值,感兴趣的可以了解一下... 目录1.多重索引概述2.多重索引的基本操作2.1 选择和切片多重索引2.2 交换层级与重设索引3.多重索引的高级操作3.1 多重索引的分组聚

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

Python中列表的高级索引技巧分享

《Python中列表的高级索引技巧分享》列表是Python中最常用的数据结构之一,它允许你存储多个元素,并且可以通过索引来访问这些元素,本文将带你深入了解Python列表的高级索引技巧,希望对... 目录1.基本索引2.切片3.负数索引切片4.步长5.多维列表6.列表解析7.切片赋值8.删除元素9.反转列表

MySQL的索引失效的原因实例及解决方案

《MySQL的索引失效的原因实例及解决方案》这篇文章主要讨论了MySQL索引失效的常见原因及其解决方案,它涵盖了数据类型不匹配、隐式转换、函数或表达式、范围查询、LIKE查询、OR条件、全表扫描、索引... 目录1. 数据类型不匹配2. 隐式转换3. 函数或表达式4. 范围查询之后的列5. like 查询6