MySQL系列:innodb源码分析之表空间管理

2024-08-22 08:58

本文主要是介绍MySQL系列:innodb源码分析之表空间管理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

innodb在实现表空间(table space)基于文件IO之上构建的一层逻辑存储空间管理,table space采用逻辑分层的结构:space、segment inode、extent和page.在实现层的逻辑使用了磁盘链表这种结构来管理逻辑关系。我们先来介绍磁盘链表。

1.磁盘链表

磁盘链表的实现fut0lst.*文件当中, innodb为了管理表空间和索引模块,定义了一个基于磁盘的链表,主要是用来保存磁盘数据结构之间的关系。这个链表不是基于内存指针的,而是基于page no和boffset来做位置绑定的。在innodb中定义了一个fil_addr_t的结构来做描述:
typedef struct fil_addr_struct
{ulint	page;        /*page在space中的编号*/ulint	boffset;     /*page中的字节偏移量,在内存中使用2字节表示*/
}fil_addr_t;
fil_addr_t可以通过fut_get_ptr函数来获得对应node的内存位置(flst_node_t)
flst_node_t可以通过buf_ptr_get_fsp_addr来确定fil_addr_t。
flst_node_t中存有12个字节的内容,前6个字节(page:4 boffset:2)表示相对自己前一个node的fil_addr_t信息,后6个字节表示相对自己后1个node的fil_addr_t。除了flst_node_t以外,磁盘链表还有一个头信息flst_base_node_t,头信息是一个节点个数FLST_LEN(4字节) + FLST_FIRST (6字节)+ FLST_LAST(6字节).

1.1磁盘链表的结构关系



2.space结构分析

 在innodb的表空间中,所有的数据都是以page为单位来存储的,在space(表空间)中有两种
page: FSP_HDR/XDES Page、fseg inodes Page。每个page是以默认16KB的大小存储的,
innodb在分配page的时候总以一个extent为单位一次性分配64个page。

2.1 FSP HDR/XDES Page

2.1.1XDES结构分析(extent)

这个类型的page主要存储两类信息,前面112个字节存储的是File Space header信息,后面剩余的空间存储多个extent描述信息(XDES ),具体存储结构图如下:


只有space的第一个page会保存FSP header,其他的页是用0填充的。 每个XDES Page最大包含256个XDES descritptors Entry,每个XDES descritptors Entry对应的是一个extent。XDES descritptors Entry的结构描述如下:

File Segment ID                 是当前extent所属segment的ID
    XDES list                         是磁盘双向链表的一个节点,分别指向前一个XDES entry的page位置和后一个
XDES entry的page位置
    state                                 extent的状态, XDES_FREE、XDES_FREE_FRAG、XDES_FULL_FRAG、
XDES_FSEG,在为XDES_FSEG的时候,表示这个extent已经隶属于一个
Segment,extent在创建的时候会指定成XDES_FSEG状态。一个extent在刚
分配时的状态XDES_FREE.
   bitmap                              当前extent的所有page的状态索引,一个page占用2 bit,第一个bit表示是否被使用
状态,第二个位表示是否并 清空状态,清空状态暂时好像没有用 到,都是TRUE。

2.1.2 FSP Header

space id                    当前表空间的ID
size                     当前space最大可容纳的page数,文件扩大时才会改变这个值
            limit                   当前space已经分配初始化的page数,包括空闲的和已经使用的
            flag                     未起作用
            frage used         FSP_FREE_FRAG列表中已经被使用的page数
            free list               space中可用的extent对象列表,extent里面没有一个page被使用
            frag free list       有可用碎叶page的extent列表,exntent里面有部分page被使用
            frag full list       没有有可用page的extent列表,exntent里面全部page被使用
            segment id         下一个可利用的segment id
            full inode list     space当前完全占满的segment inode页列表
            free inode list     space当前完全占满的segment inode页列表

2.2 Fseg inode Page

这个页类型是存储fseg inode用的页,每个inode 占用192个字节,一个page存储有85个inode对象,结构如下:

在FIL Header后面紧接了12个字节,这个12个字节其实就是full inode list或则free inode list中的列表所以,分别表示前后的fil_addr_t。每个inode信息占用192个字节,里面分别管理对应的extent和fragment page。inode 结构如下:

    fseg id                                    segment ID
            not full used                          FSEG_NOT_FULL列表中的page数
            FSEG_FREE                         inode中空闲的extent列表
            FSEG_NOT_FULL               extent有部分page被占用,有部分page空闲的extent列表
            FSEG_FULL                          完全占满的extent的列表
            FSEG_MAGIC_N                  校验魔法字
            fragment array                       一个长度为32的零散page索引存储的数组,如果这个数据满了.主要的作用是
节省空间,例如在表刚建立时,不会分配一个完整的extent给表用,只会分配
6个PAGE页,这时候就需要用fragment array来管理。

3.space结构图

3.1space框架关系图


3.2模块关系示意图



4.space的inode、extent和page分配流程

innodb的space中,inode、extent和page之间的关系是环环相扣的,inode对应的是segment,extent对应的是区,page是页,也是表空间的最小分配单位。一个page在MySQL中默认是16KB大小,一个extent管理64个page,大小为1M,而inode可以管理很多extent加32个frag page(碎页)。frag page是为了节省空间而定义的。在了解了以上基本的概念后,我们开始分析inode的分配、extent的分配和page的分配过程。

4.1 inode的分配流程

通过inode page的介绍我们可以知道,inode信息一定是存储在inode page中的,在分配inode的时候,一定是从inode page中获取空闲的inode。如果没有inode page可以使用,会先去在space的free list得到一个inode page(在函数fsp_alloc_seg_inode_page),然后再在这个inode page获得空闲的inode。在这个过程中会涉及到两个磁盘链表:FSP_SEG_INODES_FREE和FSP_SEG_INODES_FULL,这两个队列是管理inode page的,如果没有空闲inode的inode page是放在FSP_SEG_INODES_FULL中的,如果还有空闲inode的inode page是放在FSP_SEG_INODES_FREE中。一个inode页包含85个inode信息。以下是inode 分配示意图:


第1步:在FSP_SEG_INODES_FREE为空时,向space默认的头页中获取一个inode page,对应函数fsp_alloc_seg_inode_page
    第2步:在申请inode时,如果FSP_SEG_INODES_FREE有可以的inode page,从inode page或的一个inode,对应函数fsp_alloc_seg_inode
    第3步:如果在申请inode后,inode所处的inode page已经没有空闲的inode了,会将这个inode page放入FSP_SEG_INODE_FULL,并将其从FSP_SEG_INODES_FREE中删除。
    第4步:如果inode管理的所有的页都是空闲,那么这个inode状态会被置为空闲状态,这个时候会将这个inode page从FSP_SEG_INODE_FULL移 到FSP_SEG_INODES_FREE中;这个过程只有在segment删除的时候才会调用。对应的函数fsp_free_seg_inode

4.2extent的分配流程

extent的分配方式有两种,一种是通过inode进行申请分配,一种是通过fragment碎片方式申请分配。inode分配方式是当inode中没有空闲可用的extent的时候,会向space free list中申请1个或者5个extent进行管理,如果当inode管理的extent数量小于40时,每次只会申请1个extent,如果超过这个大小,就会一次申请5个extent,这个过程会涉及到inode的FSEG_FREE、FSEG_NOT_FULL和FSEG_FULL三个磁盘链表。第二种申请方式是分配frag page时,是直接对extent进行申请,这其中会涉及到FSP_FREE_FRAG和FSP_FULL_FRAG这两个磁盘链表。以下是分配示意图:



上图中,1~7是属于inode申请分配流程, 8~12是属于frag page的申请extent方式
    1: 当inode的free list为空,如果需要使用申请使用新的extent,innodb会从space free list获得空闲的extent加入到inode free list当中。
    2: 当inode  free list中有extent,如果申请使用新的extent,只只需要从inode free list中拿取,并将extent移到inode not full当中。
    3:只是通过inode方式申请页的一个操作,这个时候extent有足够多的空闲page.
    4: 当extent中没有空闲的page时,会将这个extent从inode not full中转移到inode full当中。
    5: 当一个page释放时,这个page所处的extent是一个完全占用的且被inode管理的extent,那么page释放后,就会将这个extent从inode full移到inode not full
    6:当一个page释放时,这个page所处的extent有且只有这一个page被占用,那么page释放后,这个extent就会归还给inode list.并且会直接进行 7将extent归还给space free list.
    8~12和以上步骤类似

4.3page的分配流程

page的申请分配是基于inode 申请和extent申请的基础上,页的申请有外部通过inode方式申请,也有通过fragment page方式申请。fragment方式申请相对比较简单,就不在表述,源码中很清晰。inode方式分配是比较复杂的,其主要实现是在fseg_alloc_free_page_low和fseg_free_page_low这两个函数。在fseg_alloc_free_page_low函数中实现了7种情况获得inode中的page.
    1. 指定的inode的hint位置的页是空闲状态,直接返回对应的page
    2.descr是空闲状态,但segment inode中的空闲page数量 < 1/8,且碎片页被全部用完,为其分配一个extent,并获得hint对应的page
    3.如果descr不是空闲状态,且segment inode中的空闲page数量 < 1/8,在inode当中获得一个空闲的extent,并且将这个extent descr对应的页返回。
    4.descr是XDES_FSEG状态,且这个extent中还有空闲page,从其中获取一个page.
    5.除了以上情况外,如果descr不是空闲的,但是inode还有其他的空闲extent,从其他的extent获得一个空闲。
    6.如果其他的extent没有空闲页,但是fragment array还有空闲的碎片page,从空闲的碎片page中获得一个空闲页。
    7.如果连碎页也没有,直接申请分配一个新的extent,并在其中获取一个空闲的page.

5.综述

table space的实现在fsp0fsp.*文件当中,也依赖于page0page.*  fil0fil.* 等文件。innodb在存储上,定义了最小的存储单位就是page,space在设计这些层关系,都是为了更为高效和合理的管理page。space可以和其他表存在同一个数据库文件中,也可以一张表一个文件存储。这取决于MySQL的配置。分析space的结构和工作原理有利于我们理解innodb的存储方式,其后面理解索引、锁和事务提供有力的基础。上面也说到最小的存储单位是page,我将在下一章节中单独来介绍数据page的存储方式和其工作原理。




这篇关于MySQL系列:innodb源码分析之表空间管理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095822

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何去写一手好SQL

MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl