ElasticSearch底层原理简析

2024-09-08 07:18

本文主要是介绍ElasticSearch底层原理简析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.ElasticSearch简述
ElastiaSearch(以下简称ES)是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,支持RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。ES设计用于云计算中,能够进行实时搜索,支持PB级搜索,具有稳定,可靠,快速,安装使用方便等优点。从2016年开始,使用量已经超越solr。目前京东互联网医院对医院、医生、问诊单的搜索;京东多药城b2c处方药订单的搜索等均已依赖ES进行。
本文从倒排索引、相关度分数计算、分布式架构、JavaAPI常见用法等几个方面简要解析ES底层原理及基本用法,希望给读者提供有益帮助。

2.倒排索引
2.1理解倒排索引
ES使用倒排索引的结构进行全文快速搜索,一个倒排索引由文档中所有不重复的列表构成,对于每一个单词,有一个包含他的文档列表。本小节主要以京东互联网医院医院信息为例介绍倒排索引的存储方式及数据存储标准化规则。
如下表所示,假设文档集合中包含5个文档,左边对应文档编号,右边文档内容,我们的任务就是对这个文档集合建立倒排索引。
文档编号 文档内容
1 {“hospitalName”:”北京大学第三附属医院”}
2 {“hospitalName”:”北京协和医院”}
3 {“hospitalName”:”解放军总医院第一附属医院”}
4 {“hospitalName”:”Peking University Third Hospital”}
5 {“hospitalName”:”Peking Union Medical College Hospital”}

(1)首先利用中、英文分词器从所有文档中提取不重复的单词,每一个单词对应有一个ID和含有这个单词的文档ID,这样可以很清晰的看出单词及对应的文档,如下表所示。
单词ID 单词 文档id
1 医院 1、2、3
2 北京 1、2
3 北京大学 1
4 第三 1
5 附属 1、3
6 协和 2
7 解放军 3
8 第一 3
9 总 3

(2)索引系统还可以记录除此之外的很多信息,下图还记录了单词频率信息(TF),即单词在每个文档中出现的次数。这个信息是用户为词条信息在搜索时,计算查询和文档相似程度(相关度分数)是一个很重要的计算因子。
单词ID 单词 文档Id:出现次数
1 医院 (1:1)、(2:1)、(3:2)
2 北京 (1:1)、(2:1)
3 北京大学 (1:1)
4 第三 (1:1)
5 附属 (1:1)、(3:1)
6 协和 (2:1)
7 解放军 (3:1)
8 第一 (3:1)
9 总 (3:1)

(3)还可以记录单词在文档中出现的位置
例如:(1,<8>,1)代表“医院”这个单词在ID为1、位置为8的文档中的出现了1次。
单词ID 单词 文档id,<位置>,出现次数
1 医院 (1,<8>,1)、(2<5>1)、(3<5,11>2)
… … …

显然,利用倒排索引,我们可以很快定位到文档,从而提高用户对词条的检索速度。
2.2标准化规则(normalization)
为解决词条检索时词条命中率问题,ES在建立倒排索引时运用标准化规则即针对存储的索引词条进行一些相关预处理再作为索引进行存储。
为了便于理解,此部分利用英文文档解释倒排索引的标准化规则。
例如:通常情况下,在搜索“Third”、“Hospital”这两个单词时候,文档4两个单词都出现了,计数为2;文档5只有“Hospital”这个单词出现了,计数为1,所以文档4命中率高,排名靠前。
Term Doc_4 Doc_5
Third 1 0
Hospital 1 1
Peking 1 1
Total 3 2

但是这样搜索就会存在下列问题:
(1)”Third”与”third” 用户认为是相同单词,但是首字母小写可能搜不到内容。
(2)“hospitals”与”hospital”有相同的词根,如果存储了”hospitals”,那么”hospital”可能检索不到 。
(3)“piking”与”beijing”为相同意思的词,”beijing”可能检索不到。
基于以上问题,ES在建立倒排索引时,会对拆分的各个单词进行相应

这篇关于ElasticSearch底层原理简析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147477

相关文章

MySQL底层文件的查看和修改方法

《MySQL底层文件的查看和修改方法》MySQL底层文件分为文本类(可安全查看/修改)和二进制类(禁止手动操作),以下按「查看方法、修改方法、风险管控三部分详细说明,所有操作均以Linux环境为例,需... 目录引言一、mysql 底层文件的查看方法1. 先定位核心文件路径(基础前提)2. 文本类文件(可直

SpringBoot简单整合ElasticSearch实践

《SpringBoot简单整合ElasticSearch实践》Elasticsearch支持结构化和非结构化数据检索,通过索引创建和倒排索引文档,提高搜索效率,它基于Lucene封装,分为索引库、类型... 目录一:ElasticSearch支持对结构化和非结构化的数据进行检索二:ES的核心概念Index:

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

Java 队列Queue从原理到实战指南

《Java队列Queue从原理到实战指南》本文介绍了Java中队列(Queue)的底层实现、常见方法及其区别,通过LinkedList和ArrayDeque的实现,以及循环队列的概念,展示了如何高效... 目录一、队列的认识队列的底层与集合框架常见的队列方法插入元素方法对比(add和offer)移除元素方法

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

Spring IOC核心原理详解与运用实战教程

《SpringIOC核心原理详解与运用实战教程》本文详细解析了SpringIOC容器的核心原理,包括BeanFactory体系、依赖注入机制、循环依赖解决和三级缓存机制,同时,介绍了SpringBo... 目录1. Spring IOC核心原理深度解析1.1 BeanFactory体系与内部结构1.1.1

MySQL 批量插入的原理和实战方法(快速提升大数据导入效率)

《MySQL批量插入的原理和实战方法(快速提升大数据导入效率)》在日常开发中,我们经常需要将大量数据批量插入到MySQL数据库中,本文将介绍批量插入的原理、实现方法,并结合Python和PyMySQ... 目录一、批量插入的优势二、mysql 表的创建示例三、python 实现批量插入1. 安装 PyMyS

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

Elasticsearch 的索引管理与映射配置实战指南

《Elasticsearch的索引管理与映射配置实战指南》在本文中,我们深入探讨了Elasticsearch中索引与映射的基本概念及其重要性,通过详细的操作示例,我们了解了如何创建、更新和删除索引,... 目录一、索引操作(一)创建索引(二)删除索引(三)关闭索引(四)打开索引(五)索引别名二、映射操作(一

Java 的ArrayList集合底层实现与最佳实践

《Java的ArrayList集合底层实现与最佳实践》本文主要介绍了Java的ArrayList集合类的核心概念、底层实现、关键成员变量、初始化机制、容量演变、扩容机制、性能分析、核心方法源码解析、... 目录1. 核心概念与底层实现1.1 ArrayList 的本质1.1.1 底层数据结构JDK 1.7