Linux Kdump和Crash工具

本文主要是介绍Linux Kdump和Crash工具，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Kdump

Kdump是一种基于kexec的Linux内核崩溃捕获机制，简单来说系统启动时会预留一块内存，当系统崩溃调用命令kexec(kdump kernel)在预留的内存中启动kdump内核，

该内核会将此时内存中的所有运行状态和数据信息收集到一个coredump文件中以便后续分析调试。

开启kdump

1. 设置crashkernel预留内存大小

[root@localhost ~]$ cat /etc/default/grub
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="crashkernel=256M rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
GRUB_DISABLE_RECOVERY="true"

修改crashkernel的大小，我的系统内存是1G，保留了256M，注意预留内存大小，过小会导致生成coredump文件失败（不知道设置多少时，可以尝试每次增加128M）

修改后还需重新生成grub配置文件，重启系统才能生效

[vagrant@localhost ~]$ grub2-mkconfig -o /boot/grub2/grub.cfg
[vagrant@localhost ~]$ reboot

2. 修改kdump默认配置/etc/kdump.conf

centos7 默认已安装kdump，根据需要修改默认配置

[root@localhost ~]$ vi /etc/kdump.conf
path /var/crash #指定coredump文件存储位置
core_collector makedumpfile -c -l --message-level 1 -d 31 #增加-c参数，代表压缩coredump文件
default reboot #生成coredump后，重启系统

3. 开启kdump服务

systemctl start kdump.service //启动kdump
systemctl enable kdump.service //设置开机启动

4. 测试kdump功能检查kdump是否开启成功

[root@localhost ~]# service kdump status
Redirecting to /bin/systemctl status kdump.service
● kdump.service - Crash recovery kernel armingLoaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)Active: active (exited) since Wed 2022-11-16 10:48:09 CST; 18s agoProcess: 1342 ExecStart=/usr/bin/kdumpctl start (code=exited, status=0/SUCCESS)Main PID: 1342 (code=exited, status=0/SUCCESS)CGroup: /system.slice/kdump.service

5. 手动触发crash

[root@cloud ~]# echo 1 > /proc/sys/kernel/sysrq ; echo c > /proc/sysrq-trigger

6. 查看生成的crash文件

[root@localhost ~]# ls /var/crash/
127.0.0.1-2022-11-16-11:11:43

crash解析数据原理

crash是工具，用于实现很多命令和解析方法，vmcore提供内存真实数据，vmlinux提供内核符号表，里面存了大量的全局变量地址和数据结构原理和代码等。 crash 根据你输入的命令去vmlinux中查找符号和地址，再去vmcore里面对应的位置获取真实数据，这样解析就完成了。

crash /var/crash/127.0.0.1-2022-11-16-11\:11\:43/vmcore /usr/src/kernels/linux-3.10.0-1160.71.1.el7/kernel/

常用命令和分析方法

1 bt 查看异常时的堆栈

堆栈执行的函数顺序是由大到小，#16是最开始执行的系统调用，一般#0是切换到crashkernel的执行。重点关注#10这个位置，打印出很多寄存器的地址，标准的信息是 exception RIP表示出问题时候执行的指令。

crash> bt
PID: 2775   TASK: ffff892a78d0e180  CPU: 0   COMMAND: "bash"#0 [ffff892a78377ae0] machine_kexec at ffffffffa5663674#1 [ffff892a78377b40] __crash_kexec at ffffffffa571ce12#2 [ffff892a78377c10] crash_kexec at ffffffffa571cf00#3 [ffff892a78377c28] oops_end at ffffffffa5d6c758#4 [ffff892a78377c50] no_context at ffffffffa5d5aa7e#5 [ffff892a78377ca0] __bad_area_nosemaphore at ffffffffa5d5ab15#6 [ffff892a78377cf0] bad_area_nosemaphore at ffffffffa5d5ac86#7 [ffff892a78377d00] __do_page_fault at ffffffffa5d6f6b0#8 [ffff892a78377d70] do_page_fault at ffffffffa5d6f915#9 [ffff892a78377da0] page_fault at ffffffffa5d6b758[exception RIP: sysrq_handle_crash+22]RIP: ffffffffa5a61bf6  RSP: ffff892a78377e58  RFLAGS: 00010246RAX: ffffffffa5a61be0  RBX: ffffffffa62e4c60  RCX: 0000000000000000RDX: 0000000000000000  RSI: ffff892a7c613898  RDI: 0000000000000063RBP: ffff892a78377e58   R8: ffffffffa65e38bc   R9: 6873617263206120R10: 0000000000000726  R11: 0000000000000725  R12: 0000000000000063R13: 0000000000000000  R14: 0000000000000004  R15: 0000000000000000ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
#10 [ffff892a78377e60] __handle_sysrq at ffffffffa5a6241d
#11 [ffff892a78377e90] write_sysrq_trigger at ffffffffa5a62888
#12 [ffff892a78377ea8] proc_reg_write at ffffffffa58b7f30
#13 [ffff892a78377ec8] vfs_write at ffffffffa58410a0
#14 [ffff892a78377f08] sys_write at ffffffffa5841ebf
#15 [ffff892a78377f50] system_call_fastpath at ffffffffa5d74ddbRIP: 00007f6e64767ba0  RSP: 00007ffcaed61bb8  RFLAGS: 00000246RAX: 0000000000000001  RBX: 0000000000000002  RCX: ffffffffffffffffRDX: 0000000000000002  RSI: 00007f6e6508c000  RDI: 0000000000000001RBP: 00007f6e6508c000   R8: 000000000000000a   R9: 00007f6e6507d740R10: 00007f6e6507d740  R11: 0000000000000246  R12: 00007f6e64a40400R13: 0000000000000002  R14: 0000000000000001  R15: 0000000000000000ORIG_RAX: 0000000000000001  CS: 0033  SS: 002b

此时找到rip 我们可以找到rip的值dis -rl ffffffffa5a61bf6，执行命令：

dis -rl ffffffffa5a61bf6 dis是查看源码的命令

rip是最后一行：movb $0x1,0x0 表示把数字1赋值到地址0，地址0系统会判断为空指针，所以产生了panic，除此之外查看bt的打印，上面有write_sysrq_trigger函数，说明是我们手动echo c写sysrq-trigger触发的。

2 ps,log,set

ps:查看当前有哪些进程

log:查看系统日志

set:切换调试的进程上下文，比如ps查看一个进程，需要查看其他进程的上下文，set pid切换。

files:查看当前进程打开的文件

vm:当前进程使用的虚拟内存，VMA代表 vm_area_struct

参考文章：

Centos7/RHEL7 开启kdump

这篇关于Linux Kdump和Crash工具的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Linux Kdump和Crash工具

Kdump

开启kdump

1. 设置crashkernel预留内存大小

2. 修改kdump默认配置/etc/kdump.conf

3. 开启kdump服务

4. 测试kdump功能检查kdump是否开启成功

5. 手动触发crash

6. 查看生成的crash文件

crash解析数据原理

常用命令和分析方法

1 bt 查看异常时的堆栈

2 ps,log,set

参考文章：

相关文章

VScode连接远程Linux服务器环境配置图文教程

基于Go语言实现一个压测工具

Linux中shell解析脚本的通配符、元字符、转义符说明

Linux之软件包管理器yum详解

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

Linux alias的三种使用场景方式

Linux:alias如何设置永久生效

java图像识别工具类(ImageRecognitionUtils)使用实例详解

Linux使用fdisk进行磁盘的相关操作

Linux使用dd命令来复制和转换数据的操作方法

Linux Kdump和Crash工具

Kdump

开启kdump

1. 设置crashkernel预留内存大小

2. 修改kdump默认配置/etc/kdump.conf

3. 开启kdump服务

4. 测试kdump功能 检查kdump是否开启成功

5. 手动触发crash

6. 查看生成的crash文件

crash解析数据原理

常用命令和分析方法

1 bt 查看异常时的堆栈

2 ps,log,set

参考文章：

相关文章

4. 测试kdump功能检查kdump是否开启成功