高性能MySql进化论(六):常见索引类型的原理及其特点的介绍

本文主要是介绍高性能MySql进化论(六):常见索引类型的原理及其特点的介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

众所周知,索引对于数据库性能的影响至关重要,但是索引为什么可以提高查询效率,以及索引的种类及其特点可能不是很清楚,本文将对常用的索引类型以及特点做一个简单的介绍

1        为什么要使用索引

 

首先来说一下索引为什么可以提高查询效率。普通查询的过程往往是通过整表的扫描来获得期望的结果,如果表的纪录非常的多,查询的效率肯定会很慢。而索引则会通过最大程度的降低扫描纪录的条数来提高效率,不同类型的索引往往会采取不同的策略来降低扫描的记录数,具体的策略将在后面进行描述。

首先看一个简单的例子,来说明索引的作用

在这个例子中使用了一张包含100,000条左右的字典表 ,比较是否包含索引的查询时间

[sql] view plain copy print ?
  1. mysql> select id,word, mean from dictionary where mean='DEFAULT2';  
  2.   
  3. +--------+--------+----------+  
  4.   
  5. | id     | word  | mean     |  
  6.   
  7. +--------+--------+----------+  
  8.   
  9. | 110003 |Random | DEFAULT2 |  
  10.   
  11. +--------+--------+----------+  
  12.   
  13. 1 row inset (0.05sec)  
  14.   
  15. mysql> select id,word, mean from dictionary where word='Random';  
  16.   
  17. +--------+--------+----------+  
  18.   
  19. | id     | word  | mean     |  
  20.   
  21. +--------+--------+----------+  
  22.   
  23. | 110004 |Random | DEFAULR# |  
  24.   
  25. | 110003 |Random | DEFAULT2 |  
  26.   
  27. +--------+--------+----------+  
  28.   
  29. rows inset (0.00sec)  

 

接下来看看为什么会时间上有所差别,通过执行计划可以看出,第一条语句执行了整表扫描,查询了110486条记录才得到想要的结果,而第二条语句使用了索引,只检索了2条记录就得到了想要的结果,这说明了索引的主要提速原理:查询的过程中减少扫描的记录数

[sql] view plain copy print ?
  1. mysql> explain select id,word, mean from dictionary wheremean='DEFAULT2';  
  2.   
  3. +----+-------------+------------+-------+---------------+------+---------+------+--------+--------------------------+  
  4.   
  5. | id |select_type | table      | type  | possible_keys | key  | key_len | ref  | rows  | Extra                    |  
  6.   
  7. +----+-------------+------------+-------+---------------+------+---------+------+--------+--------------------------+  
  8.   
  9. |  1 | SIMPLE      | dictionary | All | NULL          | word | 135     | NULL | 110486 | Using where; Usingindex |  
  10.   
  11. +----+-------------+------------+-------+---------------+------+---------+------+--------+--------------------------+  
  12.   
  13. 1 row inset (0.00 sec)  
  14.   
  15. mysql> explain select id,word, mean from dictionary where word='Random';  
  16.   
  17. +----+-------------+------------+------+---------------+------+---------+-------+------+--------------------------+  
  18.   
  19. | id |select_type | table      | type |possible_keys | key  | key_len | ref   | rows | Extra                    |  
  20.   
  21. +----+-------------+------------+------+---------------+------+---------+-------+------+--------------------------+  
  22.   
  23. |  1 | SIMPLE      | dictionary | ref  | word          | word | 102     | const |    2| Usingwhere; Using index |  
  24.   
  25. +----+-------------+------------+------+---------------+------+---------+-------+------+--------------------------+  
  26.   
  27. 1 row inset (0.00 sec)  

2        索引的类型

在大多数的RDBMS中,索引的特性由存储引擎决定,不同的存储引擎在索引的实现上可能会采用不同的实现,B-Tree  Index以及Hash Index是比较常用的两种索引。这两种索引使用的底层数据结构是不同的,所以这两种索引在使用的过程中也有各自的特点

2.1     B-Tree Index

B-Tree索引是一种使用相对广泛的索引类型,在很多数据库中 (ORACLE,MYSQL) 也将它作为默认的索引类型,这种索引采用B-Tree数据结构来存储数据。

B-tree是以排序的方式存储数据并允许以O(log n)的运行时间进行查找,顺序读取,插入和删除的数据结构。概括来说是一个节点可以拥有多于2个子节点的二叉查找树。在B-Tree中,内部(非叶子)节点可以拥有,预先设定范围数量内的多个子节点。当数据被插入或从一个节点中移除,它的子节点数量发生变化。

下面是B-Tree的结构图


上图说明了B-Tree的工作原理,在根节点中定义了叶子节点值的区间范围,叶子中存储了实际的值。当进行查找时,首先会使用条件值在根节点中选择一个合适叶子节点区间,然后再用条件值和叶子层某个区间内的叶子节点的值进行比较。

举个例子来说明其原理,例如 学生表中的学生ID是有序递增的,图中的Key1 是100,Key2是200.当需要查询一个ID为90的学生时会在最左侧的叶子链表中进行搜索,如果需要查询一个ID为130的学生时,会在中间的叶子链表中进行查找。这样的查询方式因为避免了全表扫描,所以效率会大大的提高。

有一点需要注意,当把B-Tree索引建立在多个字段上时,(例如 建立索引时顺序为 LastName, FirstName,BrithDay),则每个Key值都是LastName,FirstName,Brithday这样的数据结构,匹配的叶子节点值的过程是按照索引中定义的字段顺序来进行比较的,所以在使用索引的过程中必须按照这样的顺序来使用,否则索引将得不到正确使用(比如你在Where条件中的顺序是Brithday , LastName, FirstName)。

 

由于在B-Tree中存储的索引数据都是有序的,如果在B-Tree索引上执行Order by,排序的效率也会大大的提高。

 

B-Tree的工作原理决定了它对下面的查询方式有良好的支持:

(1) 全索引匹配- 匹配条件包含索引的所有字段,以及完全匹配其字段顺序

(2) 只匹配索引的第一列

(3) 只匹配第一列的前缀(右匹配),例如 “where lastName like Sun%”

(4) 第一列的范围查找 –例如 “where lastName between “Steve” and “Tony”

(5) 第一列全匹配,第二列前缀匹配

(6) 要求返回的值,是索引的子集,例如 select LastName, FristName,Brithday from Student where LastName like ”Tony”. 因为B-Tree中包含了要求的值,所以在这种情况下可以让数据的访问只发生在B-Tree中而避免对数据表的访问(Mysql中有个专门的名词叫“覆盖索引”)

同时B-Tree的工作原理也决定了在使用下面的查询方式时,索引的功效会受到影响:

(1) 查询条件没有从索引的第一列开始,例如 where firstname=”Eric” andbirthday=’2010-10-10’

(2) 没有顺序的使用索引中的列,例如 where lastname=”Tony” andbirthday=”2010-10-10”

(3) 由于使用了模糊匹配,导致了值使用了索引的部分字段,例如 where lastname=’tony’ andfirstname like ‘Robert%’ and birthday=’2010-10-10’, 在这里只用到了索引的lastname以及firstname字段,brithday被like 操作给屏蔽掉了

 

前面列出了B-Tree索引在使用的过程中的一些问题,这些问题说明查询条件中字段的顺序对索引的使用会有比较大的影响。所以在设计索引或者查询条件时要注意字段的顺序问题。有些时候可能还会建立多个字段相同但是顺序不同的索引来弥补这种顺序问题。

2.2     Hash索引

 

顾名思义,这种类型的索引采取Hash的数据结构来存储索引。结构图大概为


存储的时候会把key通过Hash函数计算,得到key的Hash值,再用这个Hash值做指针和数据库记录指针绑定在一起。选定一个好的Hash函数很重要,好的Hash函数可以使计算出的Hash值分布均匀,降低冲突,只有冲突减小了,才会降低Hash表的查找时间。在查询的过程大概会分为四步

(1)      根据查询条件生成一个Hash值例如 在name 上建立了一个hash索引,且在查询条件where name=’John Smith’ 中’John Smith’的hash值是02.

(2)      用02的Hash值到Hash索引表中找到对应的Bucket

(3)      使用步骤(2)中Bucket包含的表指针(521-1234)找到数据库中的某条记录

(4)      由于不同的name可能会有相同的Hash值,所以最后一步需要比较’John Smith’是否和已经找到的数据库记录的name相同,相同就返回当前记录,否则返回步骤2,寻找另外一条数据记录再进行匹配,直到找到对应的记录

 

Hash 索引结构的特殊性,决定了其检索效率非常的高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 B-Tree 索引。

可能很多人又有疑问了,既然 Hash 索引的效率要比 B-Tree 高很多,为什么大家不都用Hash 索引而还要使用 B-Tree 索引呢?任何事物都是有两面性的,Hash 索引也一样,虽然 Hash 索引效率高,但是 Hash索引本身由于其特殊性也带来了很多限制和弊端,主要有以下这些。

(1)Hash 索引仅仅能满足"=","IN"和"<=>"查询,不能使用范围查询。
由于 Hash 索引比较的是进行 Hash 运算之后的 Hash 值,所以它只能用于等值的过滤,不能用于基于范围的过滤,因为经过相应的 Hash 算法处理之后的 Hash 值的大小关系,并不能保证和Hash运算前完全一样。

(2)Hash 索引无法被用来避免数据的排序操作。
由于 Hash 索引中存放的是经过 Hash 计算之后的 Hash 值,而且Hash值的大小关系并不一定和 Hash 运算前的键值完全一样,所以数据库无法利用索引的数据来避免任何排序运算;

(3)Hash 索引不能利用部分索引键查询。
对于组合索引,Hash 索引在计算 Hash 值的时候是组合索引键合并后再一起计算 Hash 值,而不是单独计算 Hash 值,所以通过组合索引的前面一个或几个索引键进行查询的时候,Hash 索引也无法被利用。

(4)Hash 索引在任何时候都不能避免表扫描。
前面已经知道,Hash 索引是将索引键通过 Hash 运算之后,将 Hash运算结果的 Hash 值和所对应的行指针信息存放于一个 Hash 表中,由于不同索引键存在相同 Hash 值,所以即使取满足某个 Hash 键值的数据的记录条数,也无法从 Hash 索引中直接完成查询,还是要通过访问表中的实际数据进行相应的比较,并得到相应的结果。

(5)Hash 索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高。
对于选择性比较低的索引键,如果创建 Hash 索引,那么将会存在大量记录指针信息存于同一个 Hash 值相关联。这样要定位某一条记录时就会非常麻烦,会浪费多次表数据的访问,而造成整体性能低下。

值得一提的是,多数的数据库管理系统默认的索引类型为B-Tree(Oracle,Mysql-InnoDB),所以想要使用Hash索引的话,必须显示的设定其为Hash索引。很多比较智能的数据存储引擎(例如 Mysql 的InnoDB)会采用一种叫做“自适应Hash索引”来提高查询效率,这种机制的工作原理是 当存储引擎使用B-Tree的索引类型时,如果发现某个索引的值被检索的非常频繁时,存储引擎会自动把该值当做Hash处理,以此来提高B-Tree的效率。

这篇关于高性能MySql进化论(六):常见索引类型的原理及其特点的介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/351110

相关文章

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何去写一手好SQL

MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

便携式气象仪器的主要特点

TH-BQX9】便携式气象仪器,也称为便携式气象仪或便携式自动气象站,是一款高度集成、低功耗、可快速安装、便于野外监测使用的高精度自动气象观测设备。以下是关于便携式气象仪器的详细介绍:   主要特点   高精度与多功能:便携式气象仪器能够采集多种气象参数,包括但不限于风速、风向、温度、湿度、气压等,部分高级型号还能监测雨量和辐射等。数据采集与存储:配备微电脑气象数据采集仪,具有实时时钟、数据存