linux进程D状态的解决思路分享

2025-02-14 05:50

本文主要是介绍linux进程D状态的解决思路分享,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《linux进程D状态的解决思路分享》在Linux系统中,进程在内核模式下等待I/O完成时会进入不间断睡眠状态(D状态),这种状态下,进程无法通过普通方式被杀死,本文通过实验模拟了这种状态,并分析了如...

1. 问题描述

在Linux系统环境,进程在内核模式下等待I/O完成时通常会进入不间断睡眠状态,此时使用ps或top命令输出的进程显示为D状态。

当然我们也可以使用sysrq工具将有关进程的信息发送到/var/log/messages。

2. 问题分析

在正常情况下,不间断状态只持续几分之一秒。但是,异常情况下,进程可能会停留在此状态更长的时间或(在最坏的情况下)无限期地停留。

这种状态下,即使使用“kill -9”也无法杀死进程,因为在进程唤醒之前,kill信号无法传递给进程。

3. 实验模拟

Centos 7.9环境模拟一个处于D状态的进程并进行实验分析:

使用LVM卷的 suspend 特性,暂停IO,使得上层应用程序处于D状态。

3.1 使用losetup创建一个卷作为pv的磁盘

losetup命令概述

losetup命令用来设置loop设备,loop设备可以将文件虚拟成块设备,这样用户就可以对其进行挂载,

比如常见的ISO光盘镜像、img镜像都可以被虚拟成块设备,然后进行挂载和访问。

# dd写入一个2G的文件
$ dd GjlmRif=/dev/zero of=/tmp/diskfile count=2048 bs=1M
# 将2G的文件虚拟成块设备
$ losetup --show -f /tmp/diskfile

linux进程D状态的解决思路分享

3.2 使用/dev/loop0块设备创建pv, vg和lv

[root@node-1 ~]# pvcreate /dev/loop0
  Physical volume "/dev/loop0" successfully created.
[root@node-1 ~]# vgcreate vg01 /dev/loop0
  Volume group "vg01" successfully created
[root@node-1 ~]# lvcreate -n lv01 -L 1G vg01
  Logical volume "lv01" created.

3.3 使用刚创建的lv

创建一个文件系统并挂载到/mnt目录

[root@node-1 ~]# mkfs.ext4 /dev/vg01/lv01
[root@node-1 ~]# mount /dev/vg01/lv01 /mnt

linux进程D状态的解决思路分享

3.4 dmsetup suspend 命令暂停 lv 同时进行IO

[root@node-1 ~]# dmsetup suspend /dev/vg01/lv01 && dd if=/dev/urandom of=/mnt/iotest.img count=1024 bs=1M

此时,该进程就会处于D状态,命令不会返回到shell提示符。

linux进程D状态的解决思路分享

可以通过另一个 shell 终端来查看这个进程:

[root@node-1 ~]# ps -aux | awk '$8 == "D+" {print $0}'
root       1685  0.0  0.0 108096   620 pts/0    D+   15:57   0:00 dd if=/dev/urandom of=/mnt/iotest.img count=1024 bs=1M

通过kill -9 1685也杀死不掉该进程

[root@node-1 ~]# kill -9 1685
[root@node-1 ~]# ps -aux | awk '$8 == "D+" {print $0}'
root  javascript     1685  0.0  0.0 108096   620 pts/0    D+   16:21   0:00 dd if=/dev/urandom of=/mnt/iotest.img count=1024 bs=1M

3.5 对/var/log/messages日志文件进行分析

看到“task dd:1685 blocked for more than 120 seconds.”这样的消息时,这通常意味着有一个名为dd的进程(进程ID为1685)在执行过程中被阻塞了超过120秒。

linux进程D状态的解决思路分享

但dd进程为什么会被堵塞我们也不知道,应需要开发人员去分析call trace信息。

但由于这是通过测试模拟的,我知道是什么原因堵塞,所以我们通过dmsetup resume命令www.chinasem.cn进行恢复lv, 然后dd命令io就正常写入了,进程状态也由D变为R 。

[root@node-1 ~]# dmsetup resume /dev/vg01/lv01

linux进程D状态的解决思路分享

4. 问题总节

1、如果生产环境遇到进程一直处于D状态,无法kill 掉, 重启服务器解决

2GjlmR、运维侧分析日志或者事件升级到研发,找到进程处于D状态的原因,让进程从D状态恢复到R状态。

通过sysrq工具进行手动从内核收集D进程信息转存到messages,拿到日志进一步分析或升级到研发分析:

# 启用sysrq的功能:
$ echo 1 > /proc/sys/kernel/sysrq

# 转储处于不可中断(阻塞)状态的任务。
$ echo w > /proc/sysrq-trigger

# 将当前任务列表及其信息转储到您的控制台。
$ echo t > /proc/sysrq-trigger

# 显示所有活动 CPU 的堆栈回溯。
$ echo l > /proc/sysrq-trigger
这会将任务和线程信息转储到/var/log/messages,进行进一步分析

5. linux常见几种状态

这里只列出4种状态

5.1 TASK_RUNNING:(R)

进程当前正在运行,或者正在运行队列中等待调度。

只有在该状态的进程才可能在CPU上运行,同一时刻可能有多个进程处于运行状态。

5.2 TASK_INTERRUPTIBLE:(S)

进程处于睡眠状态,处于这个状态的进程因为等待某事件的发生(比如等待socket连接、等待信号量),而被挂起。当这些事件发生时,对应的等待队列中的一个或多个进程将被唤醒。

一般情况下,进程列表中的绝大多数进程都处于TASK_INTERRUPTIBLE状态。进程可以被信号中断。接收到信号或被显式的唤醒呼叫唤醒之后,进程将转变为TASK_RUNNING 状态。

5.3 TASK_UNINTERRUPTIBLE:(D)

不可中断的睡眠状态,此进程状态类似于 TASK_INTERRUPTIBLE,只是它不会处理信号。

不可中断,指的是进程不响应异步信号,无法用kill命令关闭处于TASK_UNINTERRUPTIBLE状态的进程。

5.4 EXIT_ZOMBIE:(Z)

进程已终止,它正等待其父进程收集关于它的一些统计信息。

不可被kill, 即不响应任务信号, 无法用SIGKILL杀死

6. 关于SysRq

6.1 什么是SysRq键?

“SysRq”键也称为“Print Screen”键,按下SysRq键,LINUX内核会响应,除www.chinasem.cn非内核完全崩溃。

关于SysRq的参考链接:参考点这里

6.2 如何启用SysRq键

在配置LINUX内核时,如果对CONFIG_MAGIC_SYSRQ配置Y选项,完成内核编译后,可以通过/proc/sys/kernel/sysrq来调用SysRq 键调用的函数。

以下是 /proc/sys/kernel/sysrq 中支持的值列表:

  • 0 完全禁用 sysrq。
  • 1 启用 sysrq 的所有功能。
  • >1 允许的 sysrq 函数的位掩码

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持China编程(www.chinasem.cn)。

这篇关于linux进程D状态的解决思路分享的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1153430

相关文章

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

如何解决idea的Module:‘:app‘platform‘android-32‘not found.问题

《如何解决idea的Module:‘:app‘platform‘android-32‘notfound.问题》:本文主要介绍如何解决idea的Module:‘:app‘platform‘andr... 目录idea的Module:‘:app‘pwww.chinasem.cnlatform‘android-32

kali linux 无法登录root的问题及解决方法

《kalilinux无法登录root的问题及解决方法》:本文主要介绍kalilinux无法登录root的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录kali linux 无法登录root1、问题描述1.1、本地登录root1.2、ssh远程登录root2、

SpringBoot应用中出现的Full GC问题的场景与解决

《SpringBoot应用中出现的FullGC问题的场景与解决》这篇文章主要为大家详细介绍了SpringBoot应用中出现的FullGC问题的场景与解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录Full GC的原理与触发条件原理触发条件对Spring Boot应用的影响示例代码优化建议结论F

SpringSecurity JWT基于令牌的无状态认证实现

《SpringSecurityJWT基于令牌的无状态认证实现》SpringSecurity中实现基于JWT的无状态认证是一种常见的做法,本文就来介绍一下SpringSecurityJWT基于令牌的无... 目录引言一、JWT基本原理与结构二、Spring Security JWT依赖配置三、JWT令牌生成与

Linux ls命令操作详解

《Linuxls命令操作详解》通过ls命令,我们可以查看指定目录下的文件和子目录,并结合不同的选项获取详细的文件信息,如权限、大小、修改时间等,:本文主要介绍Linuxls命令详解,需要的朋友可... 目录1. 命令简介2. 命令的基本语法和用法2.1 语法格式2.2 使用示例2.2.1 列出当前目录下的文

Pyserial设置缓冲区大小失败的问题解决

《Pyserial设置缓冲区大小失败的问题解决》本文主要介绍了Pyserial设置缓冲区大小失败的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录问题描述原因分析解决方案问题描述使用set_buffer_size()设置缓冲区大小后,buf

PyInstaller打包selenium-wire过程中常见问题和解决指南

《PyInstaller打包selenium-wire过程中常见问题和解决指南》常用的打包工具PyInstaller能将Python项目打包成单个可执行文件,但也会因为兼容性问题和路径管理而出现各种运... 目录前言1. 背景2. 可能遇到的问题概述3. PyInstaller 打包步骤及参数配置4. 依赖

解决SpringBoot启动报错:Failed to load property source from location 'classpath:/application.yml'

《解决SpringBoot启动报错:Failedtoloadpropertysourcefromlocationclasspath:/application.yml问题》这篇文章主要介绍... 目录在启动SpringBoot项目时报如下错误原因可能是1.yml中语法错误2.yml文件格式是GBK总结在启动S

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下: