MySQL索引详解【B+Tree索引、哈希索引、全文索引、覆盖索引】

2024-04-16 15:32

本文主要是介绍MySQL索引详解【B+Tree索引、哈希索引、全文索引、覆盖索引】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前段时间面试每次提到索引,我就巴拉巴拉说一堆,然后到了说说你理解的 B+tree索引我就懵逼了。

直接说B+tree可能并不是很好理解,下面我们从最简单的二叉查找树开始慢慢循序渐进。


一、B+Tree索引

1、二叉查找树

在最开始学习树的时候,我们一定学习过这样一种结构的二叉树根结点大于它的左节点,小于它的右节点

在这里插入图片描述

如果我们要在上述的二叉树里面去查询 6 ,只需要三步即可

  1. 找到根节点 10 ,判断6比10小,寻左结点
  2. 找到结点 5 , 判断6比5大,寻右结点
  3. 找到结点 6,判断6符合查找需要

2、平衡二叉树(AVL树)

熟悉二叉树的都知道,在特殊情况下,上面的二叉树可能形成如下结构

在这里插入图片描述

如果在此种二叉树上面查询结点,那就是一个个进行对比了,效率相当低下,这个时候我们就引入平衡二叉树的概念。

平衡二叉树有如下要求:

  • 每个根结点的左节点小于它,右节点大于它
  • 每个结点的左右子树高度差不能超过 1

在这里插入图片描述

每次添加元素的时候,代码都会判断当前结构是否还属于平衡的,如果不是就进行调整。调整的代价也是挺大的,所以平衡二叉树一般用于多查询的功能里面。


3、B-Tree

我们所有的数据最终都是存在磁盘上面的。平衡二叉树有一个问题,那就是数据量如果过大的话,那么这个树就会很长很长,这样会导致频繁的进行磁盘IO,这样效率就降低了很多。

在数据库里面数据不是一个个存储,而是按照页来存储,一页是16kb大小。

B-Tree可以解决频繁的IO问题,它把数据按照页进行存储。

假如我们有这样一张表,里面有两个字段 id、name,id是主键

那么它的存储结构如下:

在这里插入图片描述

页之间也是双向指向的

从上面的结构我们可以看出,每一里面存储索引和对应的数据,并且是多条数据,而不是单一的。

一般我们的根页(页1)是存储在内存中的,然后我们进行判断一个个读取页到内存,使用这种结构可以在查询更少的页,就可以查询到我们想要的数据了。


4、B+Tree

上面的结构也存在一种问题,因为每一页的大小是固定的(16KB),如果既要存储索引,又要存储数据,那么我们16KB也存储不了多少索引数据(尤其是在大表中),这样还是会进行频繁的IO处理。

如果我们只在结点中存储索引,在叶子结点里面存储数据,这样我们每一页都可以存储更多的索引。

在这里插入图片描述

4-1、精确查找

如果我们要查询 1,先找到页1,再找到页2,最后从叶子结点找到对应的数据。

4-2、范围查询

如果我们要找到 WHERE id > 2 AND id < 5

和上面一样会先精确查询到2,叶子结点上下和左右都是有双向指针的,一个个向下去找,当找打5的时候发现 id < 5 已经不满足要求了,就结束查找。


5、总结

  • B+Tree 把所有的数据都存储在叶子结点上面,非叶子结点只存储索引,这样可以保证最少次数的IO提高索引查询的性能。
  • 存储的时候不是一个结点一个结点的存储,而是以页的方式进行存储,每一页的大小是16KB。

二、Hash索引

Hash索引就是根据给定的字段,进行创建Hash值。Hash索引可以很快的进行单个匹配度查询,但是无法做到范围查询。

如果你创建组合索引(A、B),它是根据AB俩个字段进行Hash的,所以当你单独使用A进行条件筛选的时候,是无法使用索引的。


三、全文索引

全文索引是一个比较特殊的索引,一般用的也很少。它查找的是文本中的关键词,而不是比较索引中的值。全文索引更类似于搜索引擎做的事。


四、聚簇索引和非聚簇索引

聚簇索引并不是一种单独的索引类型,而是一种数据存储方式。在InnoDB的聚簇索引实际上在同一个结构中保存了B+Tree索引和数据行。当表有聚簇索引时,它的数据行实际上存放在索引的叶子页中。

因为无法同时把数据行存放在两个不同的地方,所以一个表只能有一个聚簇索引。(不过,覆盖索引可以模拟多个聚簇索引的情况,下面说明)

在InnoDB中会选择主键来作为聚簇索引,如果没有定义主键,InnoDB会选择一个唯一的非空索引代替。如果没有这样的索引,InnoDB会隐式定义一个主键来作为聚簇索引。

聚簇索引: 它的非叶子结点存储的是,主键索引(大多数是的),叶子结点是存储的行数据。

非聚簇索引: 它的非叶子结点存储的是,索引值,叶子结点存储的是这个索引对应的主键索引。

所以我们使用非聚簇索引进行查询数据的时候,会查询两次先查询到聚簇索引,再去通过聚簇索引找到相关的数据,这个过程称之为回表


五、其它

5-1、为什么主键索引比其它索引快

因为非主键索引对应的是非聚簇索引,所以在查询的时候需要进行回表操作,先在查询找到对应的主键索引,再通过主键索引去查询真实的数据。

但也不是全部的主键索引都比其它索引快,比如我们下面要说的覆盖索引。

5-2、覆盖索引

假设我们有这样一张表

CREATE TABLE `t_user` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键id',`name` varchar(50) DEFAULT NULL COMMENT '姓名',`age` int(3) DEFAULT NULL COMMENT '年龄',`sex` tinyint(1) DEFAULT NULL COMMENT '性别',PRIMARY KEY (`id`),KEY `name_age` (`name`,`age`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

我们需要查询 name和age,sql如下

SELECT name, age FROM t_user 

因为我们建立了 name,age 的索引,并且我们查询的数据也就是这两个,所以我们不需要再去进行回表了。

覆盖索引: 如果一个索引包含(或者说覆盖)所有需要查询的字段的值,我们就称之为“覆盖索引”。

注:覆盖索引必须要存储索引列的值,而哈希索引、空间索引和全文索引等都不存储索引列的值,所以MySQL只能使用B+Tree索引做覆盖索引。另外,不同的存储引擎实现覆盖索引的方式也不同,而且不是所有的引擎都支持覆盖索引。

这篇关于MySQL索引详解【B+Tree索引、哈希索引、全文索引、覆盖索引】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/909181

相关文章

关于C++中的虚拟继承的一些总结(虚拟继承,覆盖,派生,隐藏)

1.为什么要引入虚拟继承 虚拟继承是多重继承中特有的概念。虚拟基类是为解决多重继承而出现的。如:类D继承自类B1、B2,而类B1、B2都继承自类A,因此在类D中两次出现类A中的变量和函数。为了节省内存空间,可以将B1、B2对A的继承定义为虚拟继承,而A就成了虚拟基类。实现的代码如下: class A class B1:public virtual A; class B2:pu

mysql索引四(组合索引)

单列索引,即一个索引只包含单个列,一个表可以有多个单列索引,但这不是组合索引;组合索引,即一个索引包含多个列。 因为有事,下面内容全部转自:https://www.cnblogs.com/farmer-cabbage/p/5793589.html 为了形象地对比单列索引和组合索引,为表添加多个字段:    CREATE TABLE mytable( ID INT NOT NULL, use

mysql索引三(全文索引)

前面分别介绍了mysql索引一(普通索引)、mysql索引二(唯一索引)。 本文学习mysql全文索引。 全文索引(也称全文检索)是目前搜索引擎使用的一种关键技术。它能够利用【分词技术】等多种算法智能分析出文本文字中关键词的频率和重要性,然后按照一定的算法规则智能地筛选出我们想要的搜索结果。 在MySql中,创建全文索引相对比较简单。例如:我们有一个文章表(article),其中有主键ID(

mysql索引二(唯一索引)

前文中介绍了MySQL中普通索引用法,和没有索引的区别。mysql索引一(普通索引) 下面学习一下唯一索引。 创建唯一索引的目的不是为了提高访问速度,而只是为了避免数据出现重复。唯一索引可以有多个但索引列的值必须唯一,索引列的值允许有空值。如果能确定某个数据列将只包含彼此各不相同的值,在为这个数据列创建索引的时候就应该使用关键字UNIQUE,把它定义为一个唯一索引。 添加数据库唯一索引的几种

mysql索引一(普通索引)

mysql的索引分为两大类,聚簇索引、非聚簇索引。聚簇索引是按照数据存放的物理位置为顺序的,而非聚簇索引则不同。聚簇索引能够提高多行检索的速度、非聚簇索引则对单行检索的速度很快。         在这两大类的索引类型下,还可以降索引分为4个小类型:         1,普通索引:最基本的索引,没有任何限制,是我们经常使用到的索引。         2,唯一索引:与普通索引

十四、观察者模式与访问者模式详解

21.观察者模式 21.1.课程目标 1、 掌握观察者模式和访问者模式的应用场景。 2、 掌握观察者模式在具体业务场景中的应用。 3、 了解访问者模式的双分派。 4、 观察者模式和访问者模式的优、缺点。 21.2.内容定位 1、 有 Swing开发经验的人群更容易理解观察者模式。 2、 访问者模式被称为最复杂的设计模式。 21.3.观察者模式 观 察 者 模 式 ( Obser

【操作系统】信号Signal超详解|捕捉函数

🔥博客主页: 我要成为C++领域大神🎥系列专栏:【C++核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ 如何触发信号 信号是Linux下的经典技术,一般操作系统利用信号杀死违规进程,典型进程干预手段,信号除了杀死进程外也可以挂起进程 kill -l 查看系统支持的信号

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

Jitter Injection详解

一、定义与作用 Jitter Injection,即抖动注入,是一种在通信系统中人为地添加抖动的技术。该技术通过在发送端对数据包进行延迟和抖动调整,以实现对整个通信系统的时延和抖动的控制。其主要作用包括: 改善传输质量:通过调整数据包的时延和抖动,可以有效地降低误码率,提高数据传输的可靠性。均衡网络负载:通过对不同的数据流进行不同程度的抖动注入,可以实现网络资源的合理分配,提高整体传输效率。增

29 哈希

目录 unordered系列关联式容器底层结构模拟实现 1. unordered系列关联式容器 在c++98中,STL提供了底层为红黑树结构的一系列关联式容器,在查询时效率可达到 l o g 2 N log_2N log2​N,即最差情况下需要比较红黑树的高度次,当树中的结点非常多时,查询效率也不理想。最好的查询是,进行很少的比较次数就能将元素找到,因此在c++11中,stl又提供了4个un