本文主要是介绍Linux Kdump和Crash工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Kdump
Kdump是一种基于kexec的Linux内核崩溃捕获机制,简单来说系统启动时会预留一块内存,当系统崩溃调用命令kexec(kdump kernel)在预留的内存中启动kdump内核,
该内核会将此时内存中的所有运行状态和数据信息收集到一个coredump文件中以便后续分析调试。
开启kdump
1. 设置crashkernel预留内存大小
[root@localhost ~]$ cat /etc/default/grub
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="crashkernel=256M rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
GRUB_DISABLE_RECOVERY="true"
修改crashkernel的大小,我的系统内存是1G,保留了256M,注意预留内存大小,过小会导致生成coredump文件失败(不知道设置多少时,可以尝试每次增加128M)
修改后还需重新生成grub配置文件,重启系统才能生效
[vagrant@localhost ~]$ grub2-mkconfig -o /boot/grub2/grub.cfg
[vagrant@localhost ~]$ reboot
2. 修改kdump默认配置/etc/kdump.conf
centos7 默认已安装kdump,根据需要修改默认配置
[root@localhost ~]$ vi /etc/kdump.conf
path /var/crash #指定coredump文件存储位置
core_collector makedumpfile -c -l --message-level 1 -d 31 #增加-c参数,代表压缩coredump文件
default reboot #生成coredump后,重启系统
3. 开启kdump服务
systemctl start kdump.service //启动kdump
systemctl enable kdump.service //设置开机启动
4. 测试kdump功能 检查kdump是否开启成功
[root@localhost ~]# service kdump status
Redirecting to /bin/systemctl status kdump.service
● kdump.service - Crash recovery kernel armingLoaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)Active: active (exited) since Wed 2022-11-16 10:48:09 CST; 18s agoProcess: 1342 ExecStart=/usr/bin/kdumpctl start (code=exited, status=0/SUCCESS)Main PID: 1342 (code=exited, status=0/SUCCESS)CGroup: /system.slice/kdump.service
5. 手动触发crash
[root@cloud ~]# echo 1 > /proc/sys/kernel/sysrq ; echo c > /proc/sysrq-trigger
6. 查看生成的crash文件
[root@localhost ~]# ls /var/crash/
127.0.0.1-2022-11-16-11:11:43
crash解析数据原理
crash是工具,用于实现很多命令和解析方法,vmcore提供内存真实数据,vmlinux提供内核符号表,里面存了大量的全局变量地址和数据结构原理和代码等。 crash 根据你输入的命令去vmlinux中查找符号和地址,再去vmcore里面对应的位置获取真实数据,这样解析就完成了。
crash /var/crash/127.0.0.1-2022-11-16-11\:11\:43/vmcore /usr/src/kernels/linux-3.10.0-1160.71.1.el7/kernel/
常用命令和分析方法
1 bt 查看异常时的堆栈
堆栈执行的函数顺序是由大到小,#16是最开始执行的系统调用,一般#0是切换到crashkernel的执行。重点关注#10这个位置,打印出很多寄存器的地址, 标准的信息是 exception RIP表示出问题时候执行的指令。
crash> bt
PID: 2775 TASK: ffff892a78d0e180 CPU: 0 COMMAND: "bash"#0 [ffff892a78377ae0] machine_kexec at ffffffffa5663674#1 [ffff892a78377b40] __crash_kexec at ffffffffa571ce12#2 [ffff892a78377c10] crash_kexec at ffffffffa571cf00#3 [ffff892a78377c28] oops_end at ffffffffa5d6c758#4 [ffff892a78377c50] no_context at ffffffffa5d5aa7e#5 [ffff892a78377ca0] __bad_area_nosemaphore at ffffffffa5d5ab15#6 [ffff892a78377cf0] bad_area_nosemaphore at ffffffffa5d5ac86#7 [ffff892a78377d00] __do_page_fault at ffffffffa5d6f6b0#8 [ffff892a78377d70] do_page_fault at ffffffffa5d6f915#9 [ffff892a78377da0] page_fault at ffffffffa5d6b758[exception RIP: sysrq_handle_crash+22]RIP: ffffffffa5a61bf6 RSP: ffff892a78377e58 RFLAGS: 00010246RAX: ffffffffa5a61be0 RBX: ffffffffa62e4c60 RCX: 0000000000000000RDX: 0000000000000000 RSI: ffff892a7c613898 RDI: 0000000000000063RBP: ffff892a78377e58 R8: ffffffffa65e38bc R9: 6873617263206120R10: 0000000000000726 R11: 0000000000000725 R12: 0000000000000063R13: 0000000000000000 R14: 0000000000000004 R15: 0000000000000000ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
#10 [ffff892a78377e60] __handle_sysrq at ffffffffa5a6241d
#11 [ffff892a78377e90] write_sysrq_trigger at ffffffffa5a62888
#12 [ffff892a78377ea8] proc_reg_write at ffffffffa58b7f30
#13 [ffff892a78377ec8] vfs_write at ffffffffa58410a0
#14 [ffff892a78377f08] sys_write at ffffffffa5841ebf
#15 [ffff892a78377f50] system_call_fastpath at ffffffffa5d74ddbRIP: 00007f6e64767ba0 RSP: 00007ffcaed61bb8 RFLAGS: 00000246RAX: 0000000000000001 RBX: 0000000000000002 RCX: ffffffffffffffffRDX: 0000000000000002 RSI: 00007f6e6508c000 RDI: 0000000000000001RBP: 00007f6e6508c000 R8: 000000000000000a R9: 00007f6e6507d740R10: 00007f6e6507d740 R11: 0000000000000246 R12: 00007f6e64a40400R13: 0000000000000002 R14: 0000000000000001 R15: 0000000000000000ORIG_RAX: 0000000000000001 CS: 0033 SS: 002b
此时找到rip 我们可以找到rip的值dis -rl ffffffffa5a61bf6,执行命令:
dis -rl ffffffffa5a61bf6
dis是查看源码的命令
rip是最后一行:movb $0x1,0x0 表示把数字1赋值到地址0,地址0系统会判断为空指针,所以产生了panic,除此之外查看bt的打印,上面有write_sysrq_trigger函数,说明是我们手动echo c写sysrq-trigger触发的。
2 ps,log,set
ps:查看当前有哪些进程
log:查看系统日志
set:切换调试的进程上下文,比如ps查看一个进程,需要查看其他进程的上下文,set pid切换。
files:查看当前进程打开的文件
vm:当前进程使用的虚拟内存,VMA代表 vm_area_struct
参考文章:
- Centos7/RHEL7 开启kdump
这篇关于Linux Kdump和Crash工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!