系统故障分析常用方法

2024-01-10 06:08

本文主要是介绍系统故障分析常用方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《性能之巅》第二章 2.5 方法

USE是utilization、saturation、erros三个词的缩写,应用于性能研究,用来识别系统瓶颈,一言以蔽之,就是:对于所有的资源,查看它的使用率、饱和度和错误。这些术语定义如下:
资源:所有服务器物理元器件(CPU、总线。。。)。某些软件资源也能算在内,提供有用的指标。
使用率:在规定的时间间隔内,资源用于服务工作的时间百分比。
饱和度:资源不能再服务更多额外工作的程度,通常有等待队列。
错误:错误事件的个数。

例如:

U:

  • 硬件
    • CPU:利用率(TOP查看到的结果), 1秒内繁忙时间的比例
    • 内存:当前可用内存
    • 网卡:收包吞吐量/最大带宽, 发包吞吐量/最大带宽(网卡能力)
    • 存储设备I/O:设备繁忙时间/总时间
  • 软件
    • 互斥锁:锁被持有的时间/总时间
    • 线程池:线程池繁忙的时间/总时间
    • 进程/线程容量:系统中线程/进程的数量
    • 文件描述符容量:系统中描述符的数量

S:

  • 硬件
    • CPU:可运行队列的长度
    • 内存:匿名页、swap等以及oom事件
    • 存储设备I/O:等待队列的长度
  • 软件
    • 互斥锁:等待锁线程队列的长度
    • 线程池:等待线程池处理的请求队列的长度
    • 进程/线程容量:等待系统创建的线程/进程的数量
    • 文件描述符容量:等待系统创建的描述符的数量

E:

  • 硬件
    • 存储设备I/O:设备错误数
  • 软件
    • 进程/线程容量:创建失败的数量
    • 文件描述符容量:文件描述符分配失败的数量

常用命令:

# 以下命令部分依赖sysstat包
uptime              # 对系统的全局状态有一个大致的了解dmesg | tail        # 显示最新的几条系统日志df  -h              # 检查磁盘空间top                 # 全面了解系统指标vmstat 1            # 显示CPU,内存,虚拟内存相关信息mpstat -P ALL 1     # 显示每个核具体消耗情况pidstat 1           # 带历史信息的topiostat -xz 1        # 查看块设备即io状况free -m             # 查看系统内存sar -n DEV 1        # 查看网络接口的吞吐量sar -n TCP,ETCP 1   # 检查TCP相关信息

uptime:

这个命令能很快地检查系统平均负载。在 Linux 系统里,这包含了想要或者正在使用 cpu 的任务,以及在 io 上被阻塞的任务。

这三个值是系统1 分钟,5 分钟,15 分钟的系统负载指数加权的动态平均值,可以简单地认为就是这个时间段内的平均值。根据这三个值,我们可以了解系统负载随时间的变化。比如,假设现在系统出了问题,你去查看这三个值,发现 1 分钟的负载值比 15 分钟的负载值要小很多,那么你很有可能已经错过了系统出问题的时间点。

何为系统负载呢?
系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。如果一个进程满足以下条件则其就会位于运行队列中:

它没有在等待I/O操作的结果
它没有主动进入等待状态(也就是没有调用'wait')
没有被停止(例如:等待终止)
一般来说,每个CPU内核当前活动进程数不大于3,则系统运行表现良好!当然这里说的是每个cpu内核,也就是如果你的主机是四核cpu的话,那么只要uptime最后输出的一串字符数值小于12即表示系统负载不是很严重.当然如果达到20,那就表示当前系统负载非常严重,估计打开执行web脚本非常缓慢。

 

dmesg:

需要加权限  sudo dmesg
这个命令显示了最新的几条系统日志。这里我们主要找一下有没有一些系统错误会导致性能的问题。

 

df -h:

查看磁盘使用情况

 

top

CPU状态(CPU states): 包括用户进程占用比率、系统进程占用比率、用户的nice 优先级进程占用比率及空闲CPU资源比率等;

内存状态 (Mem): 包括内存总量、使用量、空闲量等;

交换分区状态( Swap): 包括交换分区总量、使用量、空闲量等;

每个进程的状态:包括进程ID、 用户名、优先级、CPU和内存使用量,以及运行该进程时执行的命令行;

进入 top 后,按下如下按钮会有相应功能:

  • 【q】 退出 top 程序
  • 【c】扩展命令行信息, 显示完整的命令行;
  • 【P】 按 CPU使用量排序;
  • 【N】 按进程ID 排序;
  • 【M】 按内存使用量排序;
  • 【空格】 立即刷新显示信息;

执行 top 命令后,每隔5 秒,系统会自动刷新一次状态信息,如果要指定刷新间隔,在启动时加入“-d” 

 

vmstat 1:

把用户态 CPU 时间(us)和内核态 CPU 时间(sy)加起来,我们可以进一步确认 CPU 是否繁忙。等待 io 的时间 (wa)高的话,表示磁盘是瓶颈;这个也被包含在空闲时间里面(id), CPU 这个时候也是空闲的,任务此时阻塞在磁盘 IO 上了。可以把等待 io 的时间(wa)看做另一种形式的 CPU 空闲,它可以说明 CPU 为什么是空闲的。
系统处理 IO 的时候,肯定是会消耗内核态时间(sy)的。如果内核态时间较多的话,比如超过 20%,我们需要进一步分析,也许内核对 IO 的处理效率不高,或者代码有问题如多次异步循环调用,而不是批量操作。
需要查看的指标:

- r:处在 runnable 状态的任务,包括正在运行的任务和等待运行的任务。这个值比平均负载能更好地看出 CPU 是否饱和。这个值不包含等待 io 相关的任务。当 r 的值比当前 cpu 个数要大的时候,系统就处于饱和状态了。

- free:以 KB 计算的空闲内存大小。

- si, so:换入换出的内存页。如果这两个值非零,表示内存不够了。

- us, sy, id, wa, st:cpu 时间的各项指标(对所有 cpu 取均值),分别表示:用户态时间,内核态时间,空闲时间,等待 io , 偷取时间(在虚拟化环境下系统在其它租户上的开销)

vmstat 展示了虚拟内存、cpu 的一些情况。命令行的 1 表示每隔 1 秒钟显示一次。

 

mpstat -P ALL 1:

mpstat命令把每个 CPU 的时间都打印出来,可以查看 CPU 对任务的处理是否均匀。如果某一单个 CPU 使用率很高的话,说明这是一个单线程应用。

 

pidstat 1:

pidstat 和 top 很像,不同的是它可以每隔一个间隔打印一次,而不是像 top 那样每次都清屏。这个命令可以方便地查看进程可能存在的行为模式,你也可以直接 copy past,可以方便地记录随着时间的变化,各个进程运行状况的变化。

 

iostat -xz 1:

iostat 是理解块设备(磁盘)的当前负载和性能的重要工具。几个指标的含义:

- r/s, w/s, rkB/s, wkB/s:系统发往设备的每秒的读次数、每秒写次数、每秒读的数据量、每秒写的数据量。这几个指标反映的是系统的工作负载。系统的性能问题很有可能就是负载太大。

- await: 系统发往 IO 设备的请求的平均响应时间。这包括请求排队的时间,以及请求处理的时间。超过经验值的平均响应时间表明设备处于饱和状态,或者设备有问题。

- avgqu-sz:设备请求队列的平均长度。队列长度大于 1 表示设备处于饱和状态。

- %util:设备利用率。设备繁忙的程度,表示每一秒之内,设备处理 io 的时间占比。大于 60% 的利用率通常会导致性能问题(可以通过 await 看到),但是每种设备也会有有所不同。接近 100% 的利用率表明磁盘处于饱和状态

注意:

如果这个块设备是一个逻辑块设备,这个逻辑快设备后面有很多物理的磁盘的话,100% 利用率只能表明有些 IO 的处理时间达到了 100%;后端的物理磁盘可能远远没有达到饱和状态,可以处理更多的负载。

较差的磁盘 IO 性能并不一定意味着应用程序会有问题。应用程序可以有许多方法执行异步 IO,而不会阻塞在 IO 上面;应用程序也可以使用诸如预读取,写缓冲等技术降低 IO 延迟对自身的影响。

 

free -m

available:当前可用内存;我们想要看这个值是不是接近于零。这几个值接近零会导致更高的磁盘 IO 以及更差的性能。

 

sar -n DEV 1

查看网络接口的吞吐量:rxkB/s 和 txkB/s可以测量负载,也可以看是否达到网络流量限制了。在上面的例子里,eth2 的吞吐量达到了大约 8 Mbytes/s,差不多 64 Mbits/sec ,比 10 Gbit/sec 还要少很多。

 

sar -n TCP,ETCP 1

TCP 重要指标的一些概括:
- retrans/s: 每秒钟的 tcp 重传次数

- passive/s:每秒钟从源端发起的 tcp 连接,也就是本地程序使用 accept() 所接受的连接

- active/s:每秒钟本地主动开启的 tcp 连接,也就是本地程序使用 connect() 系统调用

注:

atctive 和 passive 的数目通常可以用来衡量服务器的负载:接受连接的个数(passive),下游连接的个数(active)。可以简单认为 active 为出主机的连接,passive 为入主机的连接;但这个不是很严格的说法,比如 loalhost 和 localhost 之间的连接。

重传表示网络或者服务器的问题。也许是网络不稳定了,也许是服务器负载过重开始丢包了。上面这个例子表示每秒只有 2次重传。
 

这篇关于系统故障分析常用方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/589812

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

JS常用组件收集

收集了一些平时遇到的前端比较优秀的组件,方便以后开发的时候查找!!! 函数工具: Lodash 页面固定: stickUp、jQuery.Pin 轮播: unslider、swiper 开关: switch 复选框: icheck 气泡: grumble 隐藏元素: Headroom

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

常用的jdk下载地址

jdk下载地址 安装方式可以看之前的博客: mac安装jdk oracle 版本:https://www.oracle.com/java/technologies/downloads/ Eclipse Temurin版本:https://adoptium.net/zh-CN/temurin/releases/ 阿里版本: github:https://github.com/

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

30常用 Maven 命令

Maven 是一个强大的项目管理和构建工具,它广泛用于 Java 项目的依赖管理、构建流程和插件集成。Maven 的命令行工具提供了大量的命令来帮助开发人员管理项目的生命周期、依赖和插件。以下是 常用 Maven 命令的使用场景及其详细解释。 1. mvn clean 使用场景:清理项目的生成目录,通常用于删除项目中自动生成的文件(如 target/ 目录)。共性规律:清理操作

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti