系统故障分析常用方法

本文主要是介绍系统故障分析常用方法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《性能之巅》第二章 2.5 方法

USE是utilization、saturation、erros三个词的缩写，应用于性能研究，用来识别系统瓶颈，一言以蔽之，就是：对于所有的资源，查看它的使用率、饱和度和错误。这些术语定义如下：
资源：所有服务器物理元器件（CPU、总线。。。）。某些软件资源也能算在内，提供有用的指标。
使用率：在规定的时间间隔内，资源用于服务工作的时间百分比。
饱和度：资源不能再服务更多额外工作的程度，通常有等待队列。
错误：错误事件的个数。

例如：

U：

硬件
- CPU：利用率(TOP查看到的结果), 1秒内繁忙时间的比例
- 内存：当前可用内存
- 网卡：收包吞吐量/最大带宽, 发包吞吐量/最大带宽(网卡能力)
- 存储设备I/O：设备繁忙时间/总时间
软件
- 互斥锁：锁被持有的时间/总时间
- 线程池：线程池繁忙的时间/总时间
- 进程/线程容量：系统中线程/进程的数量
- 文件描述符容量：系统中描述符的数量

S：

硬件
- CPU：可运行队列的长度
- 内存：匿名页、swap等以及oom事件
- 存储设备I/O：等待队列的长度
软件
- 互斥锁：等待锁线程队列的长度
- 线程池：等待线程池处理的请求队列的长度
- 进程/线程容量：等待系统创建的线程/进程的数量
- 文件描述符容量：等待系统创建的描述符的数量

E：

硬件
- 存储设备I/O：设备错误数
软件
- 进程/线程容量：创建失败的数量
- 文件描述符容量：文件描述符分配失败的数量

常用命令：

# 以下命令部分依赖sysstat包
uptime              # 对系统的全局状态有一个大致的了解dmesg | tail        # 显示最新的几条系统日志df  -h              # 检查磁盘空间top                 # 全面了解系统指标vmstat 1            # 显示CPU，内存，虚拟内存相关信息mpstat -P ALL 1     # 显示每个核具体消耗情况pidstat 1           # 带历史信息的topiostat -xz 1        # 查看块设备即io状况free -m             # 查看系统内存sar -n DEV 1        # 查看网络接口的吞吐量sar -n TCP,ETCP 1   # 检查TCP相关信息

uptime：

这个命令能很快地检查系统平均负载。在 Linux 系统里，这包含了想要或者正在使用 cpu 的任务，以及在 io 上被阻塞的任务。

这三个值是系统1 分钟，5 分钟，15 分钟的系统负载指数加权的动态平均值，可以简单地认为就是这个时间段内的平均值。根据这三个值，我们可以了解系统负载随时间的变化。比如，假设现在系统出了问题，你去查看这三个值，发现 1 分钟的负载值比 15 分钟的负载值要小很多，那么你很有可能已经错过了系统出问题的时间点。

何为系统负载呢？
系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。如果一个进程满足以下条件则其就会位于运行队列中：

它没有在等待I/O操作的结果
它没有主动进入等待状态(也就是没有调用'wait')
没有被停止(例如：等待终止)
一般来说，每个CPU内核当前活动进程数不大于3，则系统运行表现良好！当然这里说的是每个cpu内核，也就是如果你的主机是四核cpu的话，那么只要uptime最后输出的一串字符数值小于12即表示系统负载不是很严重.当然如果达到20，那就表示当前系统负载非常严重，估计打开执行web脚本非常缓慢。

dmesg:

需要加权限 sudo dmesg
这个命令显示了最新的几条系统日志。这里我们主要找一下有没有一些系统错误会导致性能的问题。

df -h：

查看磁盘使用情况

top

CPU状态（CPU states）：包括用户进程占用比率、系统进程占用比率、用户的nice 优先级进程占用比率及空闲CPU资源比率等；

内存状态（Mem）：包括内存总量、使用量、空闲量等；

交换分区状态（ Swap）：包括交换分区总量、使用量、空闲量等；

每个进程的状态：包括进程ID、用户名、优先级、CPU和内存使用量，以及运行该进程时执行的命令行；

进入 top 后，按下如下按钮会有相应功能：

【q】退出 top 程序
【c】扩展命令行信息，显示完整的命令行；
【P】按 CPU使用量排序；
【N】按进程ID 排序；
【M】按内存使用量排序；
【空格】立即刷新显示信息；

执行 top 命令后，每隔5 秒，系统会自动刷新一次状态信息，如果要指定刷新间隔，在启动时加入“-d”

vmstat 1：

把用户态 CPU 时间（us）和内核态 CPU 时间（sy）加起来，我们可以进一步确认 CPU 是否繁忙。等待 io 的时间（wa）高的话，表示磁盘是瓶颈；这个也被包含在空闲时间里面（id）， CPU 这个时候也是空闲的，任务此时阻塞在磁盘 IO 上了。可以把等待 io 的时间（wa）看做另一种形式的 CPU 空闲，它可以说明 CPU 为什么是空闲的。
系统处理 IO 的时候，肯定是会消耗内核态时间（sy）的。如果内核态时间较多的话，比如超过 20%，我们需要进一步分析，也许内核对 IO 的处理效率不高，或者代码有问题如多次异步循环调用，而不是批量操作。
需要查看的指标：

- r：处在 runnable 状态的任务，包括正在运行的任务和等待运行的任务。这个值比平均负载能更好地看出 CPU 是否饱和。这个值不包含等待 io 相关的任务。当 r 的值比当前 cpu 个数要大的时候，系统就处于饱和状态了。

- free：以 KB 计算的空闲内存大小。

- si, so：换入换出的内存页。如果这两个值非零，表示内存不够了。

- us, sy, id, wa, st：cpu 时间的各项指标（对所有 cpu 取均值），分别表示：用户态时间，内核态时间，空闲时间，等待 io , 偷取时间（在虚拟化环境下系统在其它租户上的开销）

vmstat 展示了虚拟内存、cpu 的一些情况。命令行的 1 表示每隔 1 秒钟显示一次。

mpstat -P ALL 1：

mpstat命令把每个 CPU 的时间都打印出来，可以查看 CPU 对任务的处理是否均匀。如果某一单个 CPU 使用率很高的话，说明这是一个单线程应用。

pidstat 1：

pidstat 和 top 很像，不同的是它可以每隔一个间隔打印一次，而不是像 top 那样每次都清屏。这个命令可以方便地查看进程可能存在的行为模式，你也可以直接 copy past，可以方便地记录随着时间的变化，各个进程运行状况的变化。

iostat -xz 1：

iostat 是理解块设备（磁盘）的当前负载和性能的重要工具。几个指标的含义：

- r/s, w/s, rkB/s, wkB/s：系统发往设备的每秒的读次数、每秒写次数、每秒读的数据量、每秒写的数据量。这几个指标反映的是系统的工作负载。系统的性能问题很有可能就是负载太大。

- await：系统发往 IO 设备的请求的平均响应时间。这包括请求排队的时间，以及请求处理的时间。超过经验值的平均响应时间表明设备处于饱和状态，或者设备有问题。

- avgqu-sz：设备请求队列的平均长度。队列长度大于 1 表示设备处于饱和状态。

- %util：设备利用率。设备繁忙的程度，表示每一秒之内，设备处理 io 的时间占比。大于 60% 的利用率通常会导致性能问题（可以通过 await 看到），但是每种设备也会有有所不同。接近 100% 的利用率表明磁盘处于饱和状态

注意：

如果这个块设备是一个逻辑块设备，这个逻辑快设备后面有很多物理的磁盘的话，100% 利用率只能表明有些 IO 的处理时间达到了 100%；后端的物理磁盘可能远远没有达到饱和状态，可以处理更多的负载。

较差的磁盘 IO 性能并不一定意味着应用程序会有问题。应用程序可以有许多方法执行异步 IO，而不会阻塞在 IO 上面；应用程序也可以使用诸如预读取，写缓冲等技术降低 IO 延迟对自身的影响。

free -m

available：当前可用内存；我们想要看这个值是不是接近于零。这几个值接近零会导致更高的磁盘 IO 以及更差的性能。

sar -n DEV 1

查看网络接口的吞吐量：rxkB/s 和 txkB/s可以测量负载，也可以看是否达到网络流量限制了。在上面的例子里，eth2 的吞吐量达到了大约 8 Mbytes/s，差不多 64 Mbits/sec ，比 10 Gbit/sec 还要少很多。

sar -n TCP,ETCP 1

TCP 重要指标的一些概括：
- retrans/s: 每秒钟的 tcp 重传次数

- passive/s：每秒钟从源端发起的 tcp 连接，也就是本地程序使用 accept() 所接受的连接

- active/s：每秒钟本地主动开启的 tcp 连接，也就是本地程序使用 connect() 系统调用

注：

atctive 和 passive 的数目通常可以用来衡量服务器的负载：接受连接的个数（passive），下游连接的个数（active）。可以简单认为 active 为出主机的连接，passive 为入主机的连接；但这个不是很严格的说法，比如 loalhost 和 localhost 之间的连接。

重传表示网络或者服务器的问题。也许是网络不稳定了，也许是服务器负载过重开始丢包了。上面这个例子表示每秒只有 2次重传。

这篇关于系统故障分析常用方法的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

系统故障分析常用方法

uptime：

dmesg:

df -h：

top

vmstat 1：

mpstat -P ALL 1：

pidstat 1：

iostat -xz 1：

free -m

sar -n DEV 1

sar -n TCP,ETCP 1

相关文章

MySQL查询JSON数组字段包含特定字符串的方法

关于集合与数组转换实现方法

Python中注释使用方法举例详解

一文详解Git中分支本地和远程删除的方法

python常用的正则表达式及作用

MySQL中的表连接原理分析

在Golang中实现定时任务的几种高效方法

在Linux终端中统计非二进制文件行数的实现方法

Python中Tensorflow无法调用GPU问题的解决方法

XML重复查询一条Sql语句的解决方法