Linux Kdump和Crash工具

2024-01-04 19:44
文章标签 工具 linux crash kdump

本文主要是介绍Linux Kdump和Crash工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Kdump

Kdump是一种基于kexec的Linux内核崩溃捕获机制,简单来说系统启动时会预留一块内存,当系统崩溃调用命令kexec(kdump kernel)在预留的内存中启动kdump内核,

该内核会将此时内存中的所有运行状态和数据信息收集到一个coredump文件中以便后续分析调试。

开启kdump

1. 设置crashkernel预留内存大小
[root@localhost ~]$ cat /etc/default/grub
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="crashkernel=256M rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
GRUB_DISABLE_RECOVERY="true"

修改crashkernel的大小,我的系统内存是1G,保留了256M,注意预留内存大小,过小会导致生成coredump文件失败(不知道设置多少时,可以尝试每次增加128M)

修改后还需重新生成grub配置文件,重启系统才能生效

[vagrant@localhost ~]$ grub2-mkconfig -o /boot/grub2/grub.cfg
[vagrant@localhost ~]$ reboot
2. 修改kdump默认配置/etc/kdump.conf

centos7 默认已安装kdump,根据需要修改默认配置

[root@localhost ~]$ vi /etc/kdump.conf
path /var/crash #指定coredump文件存储位置
core_collector makedumpfile -c -l --message-level 1 -d 31 #增加-c参数,代表压缩coredump文件
default reboot #生成coredump后,重启系统
3. 开启kdump服务
systemctl start kdump.service //启动kdump
systemctl enable kdump.service //设置开机启动
4. 测试kdump功能 检查kdump是否开启成功
[root@localhost ~]# service kdump status
Redirecting to /bin/systemctl status kdump.service
● kdump.service - Crash recovery kernel armingLoaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)Active: active (exited) since Wed 2022-11-16 10:48:09 CST; 18s agoProcess: 1342 ExecStart=/usr/bin/kdumpctl start (code=exited, status=0/SUCCESS)Main PID: 1342 (code=exited, status=0/SUCCESS)CGroup: /system.slice/kdump.service
5. 手动触发crash
[root@cloud ~]# echo 1 > /proc/sys/kernel/sysrq ; echo c > /proc/sysrq-trigger
6. 查看生成的crash文件
[root@localhost ~]# ls /var/crash/
127.0.0.1-2022-11-16-11:11:43

crash解析数据原理

crash是工具,用于实现很多命令和解析方法,vmcore提供内存真实数据,vmlinux提供内核符号表,里面存了大量的全局变量地址和数据结构原理和代码等。 crash 根据你输入的命令去vmlinux中查找符号和地址,再去vmcore里面对应的位置获取真实数据,这样解析就完成了。

crash /var/crash/127.0.0.1-2022-11-16-11\:11\:43/vmcore /usr/src/kernels/linux-3.10.0-1160.71.1.el7/kernel/

常用命令和分析方法

1 bt 查看异常时的堆栈

堆栈执行的函数顺序是由大到小,#16是最开始执行的系统调用,一般#0是切换到crashkernel的执行。重点关注#10这个位置,打印出很多寄存器的地址, 标准的信息是 exception RIP表示出问题时候执行的指令。

crash> bt
PID: 2775   TASK: ffff892a78d0e180  CPU: 0   COMMAND: "bash"#0 [ffff892a78377ae0] machine_kexec at ffffffffa5663674#1 [ffff892a78377b40] __crash_kexec at ffffffffa571ce12#2 [ffff892a78377c10] crash_kexec at ffffffffa571cf00#3 [ffff892a78377c28] oops_end at ffffffffa5d6c758#4 [ffff892a78377c50] no_context at ffffffffa5d5aa7e#5 [ffff892a78377ca0] __bad_area_nosemaphore at ffffffffa5d5ab15#6 [ffff892a78377cf0] bad_area_nosemaphore at ffffffffa5d5ac86#7 [ffff892a78377d00] __do_page_fault at ffffffffa5d6f6b0#8 [ffff892a78377d70] do_page_fault at ffffffffa5d6f915#9 [ffff892a78377da0] page_fault at ffffffffa5d6b758[exception RIP: sysrq_handle_crash+22]RIP: ffffffffa5a61bf6  RSP: ffff892a78377e58  RFLAGS: 00010246RAX: ffffffffa5a61be0  RBX: ffffffffa62e4c60  RCX: 0000000000000000RDX: 0000000000000000  RSI: ffff892a7c613898  RDI: 0000000000000063RBP: ffff892a78377e58   R8: ffffffffa65e38bc   R9: 6873617263206120R10: 0000000000000726  R11: 0000000000000725  R12: 0000000000000063R13: 0000000000000000  R14: 0000000000000004  R15: 0000000000000000ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
#10 [ffff892a78377e60] __handle_sysrq at ffffffffa5a6241d
#11 [ffff892a78377e90] write_sysrq_trigger at ffffffffa5a62888
#12 [ffff892a78377ea8] proc_reg_write at ffffffffa58b7f30
#13 [ffff892a78377ec8] vfs_write at ffffffffa58410a0
#14 [ffff892a78377f08] sys_write at ffffffffa5841ebf
#15 [ffff892a78377f50] system_call_fastpath at ffffffffa5d74ddbRIP: 00007f6e64767ba0  RSP: 00007ffcaed61bb8  RFLAGS: 00000246RAX: 0000000000000001  RBX: 0000000000000002  RCX: ffffffffffffffffRDX: 0000000000000002  RSI: 00007f6e6508c000  RDI: 0000000000000001RBP: 00007f6e6508c000   R8: 000000000000000a   R9: 00007f6e6507d740R10: 00007f6e6507d740  R11: 0000000000000246  R12: 00007f6e64a40400R13: 0000000000000002  R14: 0000000000000001  R15: 0000000000000000ORIG_RAX: 0000000000000001  CS: 0033  SS: 002b

此时找到rip 我们可以找到rip的值dis -rl ffffffffa5a61bf6,执行命令:

dis -rl ffffffffa5a61bf6 dis是查看源码的命令

rip是最后一行:movb $0x1,0x0 表示把数字1赋值到地址0,地址0系统会判断为空指针,所以产生了panic,除此之外查看bt的打印,上面有write_sysrq_trigger函数,说明是我们手动echo c写sysrq-trigger触发的。

2 ps,log,set

ps:查看当前有哪些进程

log:查看系统日志

set:切换调试的进程上下文,比如ps查看一个进程,需要查看其他进程的上下文,set pid切换。

files:查看当前进程打开的文件

vm:当前进程使用的虚拟内存,VMA代表 vm_area_struct

参考文章:

  1. Centos7/RHEL7 开启kdump

这篇关于Linux Kdump和Crash工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/570395

相关文章

VScode连接远程Linux服务器环境配置图文教程

《VScode连接远程Linux服务器环境配置图文教程》:本文主要介绍如何安装和配置VSCode,包括安装步骤、环境配置(如汉化包、远程SSH连接)、语言包安装(如C/C++插件)等,文中给出了详... 目录一、安装vscode二、环境配置1.中文汉化包2.安装remote-ssh,用于远程连接2.1安装2

基于Go语言实现一个压测工具

《基于Go语言实现一个压测工具》这篇文章主要为大家详细介绍了基于Go语言实现一个简单的压测工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录整体架构通用数据处理模块Http请求响应数据处理Curl参数解析处理客户端模块Http客户端处理Grpc客户端处理Websocket客户端

Linux中shell解析脚本的通配符、元字符、转义符说明

《Linux中shell解析脚本的通配符、元字符、转义符说明》:本文主要介绍shell通配符、元字符、转义符以及shell解析脚本的过程,通配符用于路径扩展,元字符用于多命令分割,转义符用于将特殊... 目录一、linux shell通配符(wildcard)二、shell元字符(特殊字符 Meta)三、s

Linux之软件包管理器yum详解

《Linux之软件包管理器yum详解》文章介绍了现代类Unix操作系统中软件包管理和包存储库的工作原理,以及如何使用包管理器如yum来安装、更新和卸载软件,文章还介绍了如何配置yum源,更新系统软件包... 目录软件包yumyum语法yum常用命令yum源配置文件介绍更新yum源查看已经安装软件的方法总结软

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

《linux报错INFO:taskxxxxxx:634blockedformorethan120seconds.三种解决方式》文章描述了一个Linux最小系统运行时出现的“hung_ta... 目录1.问题描述2.解决办法2.1 缩小文件系统缓存大小2.2 修改系统IO调度策略2.3 取消120秒时间限制3

Linux alias的三种使用场景方式

《Linuxalias的三种使用场景方式》文章介绍了Linux中`alias`命令的三种使用场景:临时别名、用户级别别名和系统级别别名,临时别名仅在当前终端有效,用户级别别名在当前用户下所有终端有效... 目录linux alias三种使用场景一次性适用于当前用户全局生效,所有用户都可调用删除总结Linux

Linux:alias如何设置永久生效

《Linux:alias如何设置永久生效》在Linux中设置别名永久生效的步骤包括:在/root/.bashrc文件中配置别名,保存并退出,然后使用source命令(或点命令)使配置立即生效,这样,别... 目录linux:alias设置永久生效步骤保存退出后功能总结Linux:alias设置永久生效步骤

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动