iostat源码解析

2023-10-28 06:10
文章标签 源码 解析 iostat

本文主要是介绍iostat源码解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

iostat命令是报告cpu的统计信息和磁盘的i/o统计信息。iostat命令通过观察存储设备实际的工作时间和它们的平均传输率来监控系统的i/o负载。
这个不需要root权限,数据来源可以直接通过访问procfs获取。

基本用法和输出的基本含义

iostat -d -x 1#表示显示设备状态,显示扩展信息,每秒输出一次

iostat指标解读

性能指标含义提示
Device显示设备或者分区的Name这些设备可以在/dev下找到
r/s每秒发送给磁盘的请求数合并后的请求数
w/s每秒发送给磁盘的请求数合并后的请求数
rkB/s每秒从磁盘读取的数据量单位为kB
wkB/s每秒向磁盘写入的数据量单位为kB
rrqm/s每秒合并的读请求数%rrqm表示合并读请求的百分比
wrqm/s每秒合并的写请求数%wrqm表示合并写请求的百分比
r_await读请求处理完成等待时间包括队列中的等待时间和设备实际处理的时间,单位ms
w_await写请求处理完成等待时间包括队列中的等待时间和设备实际处理的时间,单位ms
aqu-sz平均请求队列长度旧版本中为avgqu-sz
rareq-sz平均读请求大小单位为kB
wareq-sz平均写请求大小单位为kB
svctm处理IO请求所需的平均时间
(不包括等待时间)
单位为毫秒
%util磁盘处理IO的时间百分比即使用率,由于可能存在并行IO,100%不表明磁盘IO饱和

iostat数据来源diskstats

这里的数据来源指的是/proc/diskstats

iostat是以/proc/diskstats为基础计算出来的,这是前提。而且很多查IO的方法都是通过/proc/diskstats为基础计算出来的。

由于/proc/diskstats并未把队列等待时间和硬盘处理时间分开,所以凡是以它为基础的工具都不可能分别提供disk service time以及与queue有关的值。

这里举sda为例

8 0 sda 63147 32179 3914580 61983 287312 216951 7881680 434138 0 190628 267912 0 0 0 0

每个参数对应的含义:
前3个字段分别代表major, minor, device; 后面的15个字段含义如下:

indexNameunitsdescription
1read I/Osrequestsnumber of read I/Os processed
2read mergesrequestsnumber of read I/Os merged with in-queue I/O
3read sectorssectorsnumber of sectors read
4read ticksmillisecondstotal wait time for read requests
5write I/Osrequestsnumber of write I/Os processed
6write mergesrequestsnumber of write I/Os merged with in-queue I/O
7write sectorssectorsnumber of sectors written
8write ticksmillisecondstotal wait time for write requests
9in_flightrequestsnumber of I/Os currently in flight
10io_ticksmillisecondstotal time this block device has been active
11time_in_queuemillisecondstotal wait time for all requests
12discard I/Osrequestsnumber of discard I/Os processed
13discard mergesrequestsnumber of discard I/Os merged with in-queue I/O
14discard sectorssectorsnumber of sectors discarded
15discard ticksmillisecondstotal wait time for discard requests

这里面大部分字段都是很容易理解的,稍微难理解的在于io_ticks。初看之下,明明已经有了rd_ticks和wr_ticks 为什么还需一个io_ticks。注意rd_ticks和wr_ticks是把每一个IO消耗时间累加起来,但是硬盘设备一般可以并行处理多个IO,因此,rd_ticks和wr_ticks之和一般会比自然时间(wall-clock time)要大。而io_ticks 不关心队列中有多少个IO在排队,它只关心设备有IO的时间。即不考虑IO有多少,只考虑IO有没有。在实际运算中,in_flight不是0的时候保持计时,而in_flight 等于0的时候,时间不累加到io_ticks。

内核中的数据结构

path: root/include/linux/blk_types.h
enum stat_group {STAT_READ,STAT_WRITE,STAT_DISCARD,NR_STAT_GROUPS
};path: root/include/linux/genhd.h
struct disk_stats {u64 nsecs[NR_STAT_GROUPS];unsigned long sectors[NR_STAT_GROUPS];unsigned long ios[NR_STAT_GROUPS];unsigned long merges[NR_STAT_GROUPS];unsigned long io_ticks;unsigned long time_in_queue;local_t in_flight[2];
};path: root/block/genhd.c
static int diskstats_show(struct seq_file *seqf, void *v)
{struct gendisk *gp = v;struct disk_part_iter piter;struct hd_struct *hd;char buf[BDEVNAME_SIZE];unsigned int inflight;/*if (&disk_to_dev(gp)->kobj.entry == block_class.devices.next)seq_puts(seqf,  "major minor name""     rio rmerge rsect ruse wio wmerge ""wsect wuse running use aveq""\n\n");*/disk_part_iter_init(&piter, gp, DISK_PITER_INCL_EMPTY_PART0);while ((hd = disk_part_iter_next(&piter))) {inflight = part_in_flight(gp->queue, hd);seq_printf(seqf, "%4d %7d %s ""%lu %lu %lu %u ""%lu %lu %lu %u ""%u %u %u ""%lu %lu %lu %u\n",MAJOR(part_devt(hd)), MINOR(part_devt(hd)),disk_name(gp, hd->partno, buf),part_stat_read(hd, ios[STAT_READ]),part_stat_read(hd, merges[STAT_READ]),part_stat_read(hd, sectors[STAT_READ]),(unsigned int)part_stat_read_msecs(hd, STAT_READ),part_stat_read(hd, ios[STAT_WRITE]),part_stat_read(hd, merges[STAT_WRITE]),part_stat_read(hd, sectors[STAT_WRITE]),(unsigned int)part_stat_read_msecs(hd, STAT_WRITE),inflight,jiffies_to_msecs(part_stat_read(hd, io_ticks)),jiffies_to_msecs(part_stat_read(hd, time_in_queue)),part_stat_read(hd, ios[STAT_DISCARD]),part_stat_read(hd, merges[STAT_DISCARD]),part_stat_read(hd, sectors[STAT_DISCARD]),(unsigned int)part_stat_read_msecs(hd, STAT_DISCARD),);}disk_part_iter_exit(&piter);return 0;
}

用户态iostat的数据结构

用户态程序打开/proc/diskstats文件,将数据填入到struct io_stats的结构中。

/** Structures for I/O stats.* These are now dynamically allocated.*/
struct io_stats {/* # of sectors read */unsigned long rd_sectors	__attribute__ ((aligned (8)));/* # of sectors written */unsigned long wr_sectors	__attribute__ ((packed));/* # of sectors discarded */unsigned long dc_sectors	__attribute__ ((packed));/* # of read operations issued to the device */unsigned long rd_ios		__attribute__ ((packed));/* # of read requests merged */unsigned long rd_merges		__attribute__ ((packed));/* # of write operations issued to the device */unsigned long wr_ios		__attribute__ ((packed));/* # of write requests merged */unsigned long wr_merges		__attribute__ ((packed));/* # of discard operations issued to the device */unsigned long dc_ios		__attribute__ ((packed));/* # of discard requests merged */unsigned long dc_merges		__attribute__ ((packed));/* Time of read requests in queue */unsigned int  rd_ticks		__attribute__ ((packed));/* Time of write requests in queue */unsigned int  wr_ticks		__attribute__ ((packed));/* Time of discard requests in queue */unsigned int  dc_ticks		__attribute__ ((packed));/* # of I/Os in progress */unsigned int  ios_pgr		__attribute__ ((packed));/* # of ticks total (for this device) for I/O */unsigned int  tot_ticks		__attribute__ ((packed));/* # of ticks requests spent in queue */unsigned int  rq_ticks		__attribute__ ((packed));
};

采集数据到显示数据的计算

通过获取的数据,我们可以直接得到以下信息。

r/s
w/s
rkB/s
wkB/s
rrqm/s
wrqm/s

这几项的计算是非常简单的,就是采样两次,后一次的值减去前一次的值,然后除以时间间隔,得到平均值即可。因为这些/proc/diskstats中对应的值都是累加的,后一次减去前一次,即得到采样时间间隔内的新增量。不赘述。

r_wait和w_wait的计算

xios.r_await = (ioi->rd_ios - ioj->rd_ios) ?(ioi->rd_ticks - ioj->rd_ticks) /((double) (ioi->rd_ios - ioj->rd_ios)) : 0.0;xios.w_await = (ioi->wr_ios - ioj->wr_ios) ?(ioi->wr_ticks - ioj->wr_ticks) /((double) (ioi->wr_ios - ioj->wr_ios)) : 0.0;

r _ a w a i t = ( 间 隔 期 间 所 有 读 I O 花 费 的 时 间 ) / ( 间 隔 期 间 读 请 求 的 个 数 ) w _ a w a i t = ( 间 隔 期 间 所 有 写 I O 花 费 的 时 间 ) / ( 间 隔 期 间 写 请 求 的 个 数 ) r\_await = (间隔期间所有读IO花费的时间)/(间隔期间读请求的个数) \\ w\_await = (间隔期间所有写IO花费的时间)/(间隔期间写请求的个数) r_await=IO/w_await=IO/

aqu-sz 平均队列深度的计算

//其中rq_ticks即diskstats中的time_in_queue,注意这里的1000是ms->s
#define S_VALUE(m,n,p)		(((double) ((n) - (m))) / (p) * 100)
S_VALUE(ioj->rq_ticks, ioi->rq_ticks, itv) / 1000.0);

这里看下内核的实现:

path: root/drivers/md/dm-stats.cdifference = now - shared->stamp;if (!difference)return;in_flight_read = (unsigned)atomic_read(&shared->in_flight[READ]);in_flight_write = (unsigned)atomic_read(&shared->in_flight[WRITE]);if (in_flight_read)p->io_ticks[READ] += difference;if (in_flight_write)p->io_ticks[WRITE] += difference;if (in_flight_read + in_flight_write) {p->io_ticks_total += difference;p->time_in_queue += (in_flight_read + in_flight_write) * difference;}shared->stamp = now;

举个栗子

当第一个IO完成的时候,队列中250个IO,250个IO都等了4ms,即time_in_queue + = (250 * 4) ,当第二个IO完成的时候,time_in_queue += (249 * 4),当所有IO都完成的时候,time_in_queue = 4*(250+249+248….+1)

根据 t i m e _ i n _ q u e u e / 1000 time\_in\_queue/1000 time_in_queue/1000,得到了平均队列长度。

$$
time_in_queue += \Delta t_n * inflight_n \

aqu_sz = 间隔时间内inflight的期望值 = \frac{\Delta t_i * inflight_i + … + \Delta t_j * inflight_j}{\Delta t_i + … + \Delta t_i}
$$

rareq-sz & wareq-sz 平均请求的sector大小

xios.rarqsz = (ioi->rd_ios - ioj->rd_ios) ?(ioi->rd_sectors - ioj->rd_sectors) / ((double) (ioi->rd_ios - ioj->rd_ios)) :0.0;
xios.warqsz = (ioi->wr_ios - ioj->wr_ios) ?(ioi->wr_sectors - ioj->wr_sectors) / ((double) (ioi->wr_ios - ioj->wr_ios)) :0.0;

r a r e q _ s z = ( 间 隔 期 间 读 取 的 s e c t o r 增 长 量 ) / ( 间 隔 期 间 读 请 求 的 个 数 ) w a r e q _ s z = ( 间 隔 期 间 写 入 的 s e c t o r 增 长 量 ) / ( 间 隔 期 间 写 请 求 的 个 数 ) rareq\_sz = (间隔期间读取的sector增长量)/(间隔期间读请求的个数) \\ wareq\_sz = (间隔期间写入的sector增长量)/(间隔期间写请求的个数) rareq_sz=(sector)/wareq_sz=(sector)/

%util 磁盘设备饱和度(数据不准确)

path: root/drivers/md/dm-stats.c
//其中的io_ticks_total即是队列非空的总时间difference = now - shared->stamp;if (!difference)return;in_flight_read = (unsigned)atomic_read(&shared->in_flight[READ]);in_flight_write = (unsigned)atomic_read(&shared->in_flight[WRITE]);if (in_flight_read)p->io_ticks[READ] += difference;if (in_flight_write)p->io_ticks[WRITE] += difference;if (in_flight_read + in_flight_write) {p->io_ticks_total += difference;p->time_in_queue += (in_flight_read + in_flight_write) * difference;}shared->stamp = now;

最简单的例子是,某硬盘处理单个IO请求需要0.1秒,有能力同时处理10个。但是当10个请求依次提交的时候,需要1秒钟才能完成这10%的请求,,在1秒的采样周期里,%util达到了100%。但是如果10个请一次性提交的话, 硬盘可以在0.1秒内全部完成,这时候,%util只有10%。

在上面的例子中,一秒中10个IO,即IOPS=10的时候,%util就达到了100%,这并不能表明,该盘的IOPS就只能到10,事实上,纵使%util到了100%,硬盘可能仍然有很大的余力处理更多的请求,即并未达到饱和的状态。

那么有没有一个指标用来衡量硬盘设备的饱和程度呢。很遗憾,iostat没有一个指标可以衡量磁盘设备的饱和度。

明明已经有了rd_ticks和wr_ticks 为什么还需一个io_ticks。注意rd_ticks和wr_ticks是把每一个IO消耗时间累加起来,但是硬盘设备一般可以并行处理多个IO,因此,rd_ticks和wr_ticks之和一般会比自然时间(wall-clock time)要大。而io_ticks 不关心队列中有多少个IO在排队,它只关心设备有IO的时间。即不考虑IO有多少,只考虑IO有没有。在实际运算中,in_flight不是0的时候保持计时,而in_flight 等于0的时候,时间不累加到io_ticks。

svctm 处理IO请求所需的平均时间

    double tput = ((double) (sdc->nr_ios - sdp->nr_ios)) * HZ / itv; xds->util = S_VALUE(sdp->tot_ticks, sdc->tot_ticks, itv);xds->svctm = tput ? xds->util / tput : 0.0; 

对于iostat这个功能而言,%util固然会给人带来一定的误解和苦扰,但是svctm给人带来的误解更多。一直以来,人们希望了解块设备处理单个IO的service time,这个指标直接地反应了硬盘的能力。
但是service time和iostat无关,iostat没有任何一个参数能够提供这方面的信息。这个值其实并没有什么意义,事实上,这个值不是独立的,它是根据其他值计算出来的。

这篇关于iostat源码解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/291229

相关文章

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

解析C++11 static_assert及与Boost库的关联从入门到精通

《解析C++11static_assert及与Boost库的关联从入门到精通》static_assert是C++中强大的编译时验证工具,它能够在编译阶段拦截不符合预期的类型或值,增强代码的健壮性,通... 目录一、背景知识:传统断言方法的局限性1.1 assert宏1.2 #error指令1.3 第三方解决

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

解决未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4‘问题

《解决未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4‘问题》:本文主要介绍解决未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4... 目录未解析的依赖项:‘net.sf.json-lib:json-lib:jar:2.4‘打开pom.XM

IDEA Maven提示:未解析的依赖项的问题及解决

《IDEAMaven提示:未解析的依赖项的问题及解决》:本文主要介绍IDEAMaven提示:未解析的依赖项的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录IDEA Maven提示:未解析的依编程赖项例如总结IDEA Maven提示:未解析的依赖项例如

SpringBoot开发中十大常见陷阱深度解析与避坑指南

《SpringBoot开发中十大常见陷阱深度解析与避坑指南》在SpringBoot的开发过程中,即使是经验丰富的开发者也难免会遇到各种棘手的问题,本文将针对SpringBoot开发中十大常见的“坑... 目录引言一、配置总出错?是不是同时用了.properties和.yml?二、换个位置配置就失效?搞清楚加

Python循环结构全面解析

《Python循环结构全面解析》循环中的代码会执行特定的次数,或者是执行到特定条件成立时结束循环,或者是针对某一集合中的所有项目都执行一次,这篇文章给大家介绍Python循环结构解析,感兴趣的朋友跟随... 目录for-in循环while循环循环控制语句break语句continue语句else子句嵌套的循