CentOS7 配置kdump和使用crash工具分析crash现场

1. 关于kdump 和 crash
kdump是一种kernel crash dump的机制,它可以在内核crash时保存系统的内存信息用于后续的分析。kdump是基于kexec的。
crash是一个用于交互式地分析正在运行的Linux系统或者kernel crash后的core dump数据的工具。
dump的工作原理图:
kdump-vs-normal-boot
kdump-works

2. 在CentOS 7 中配置kdump
需要在kernel启动命令行参数中添加crashkernel参数,并启动kdump服务。
一般设置为 crashkernel=auto 表示根据系统内存自动reserve一些内存给kernelcrash用,在x86_64系统中内存大于等于2GB时会reserve内存,最小保留内存计算方法是:160 MB + 2 bits for every 4 KB of RAM.
当然,也可以设置crashkernel=512M这样的固定保留内存。

用 yum install kexec-tools 安装kdump工具和服务
用 systemctl start kdump 命令可以启动kdump.service,用 systemctl enable kdump 让dump服务在开机时自动启动。
kdump.service 相关的配置文件 /etc/kdump.conf 里面可以修改一些默认的配置,比如dump完成后的动作(默认是reboot)、dump文件存放的方式(本地目录、NFS、scp到另外服务器等)。

3. 测试kdump
用root权限执行如下命令,可以让kernel crash。

kernel dump完成后,系统重启,进入到 /var/crash/ 目录下可以看到保存下来的crash时系统的内存数据文件。 (默认保存在/var/crash目录)

4. 用crash工具分析
首先需要安装对应的kernel-debuginfo软件包,比如:
wget http://debuginfo.centos.org/7/x86_64/kernel-debuginfo-common-x86_64-3.10.0-327.el7.x86_64.rpm
wget http://debuginfo.centos.org/7/x86_64/kernel-debuginfo-3.10.0-327.el7.x86_64.rpm

安装好kernel-debuginfo包后,执行类似这样的crash命令即可进入交互式的分析:

在输入bt可以展示kernel-stack的backtrace,更多crash中的命令见 man crash。

另外,给个我启动kdump.service失败的情况:
内存较小时,没有reserve内存给crashkernel;启动kdump.service会失败,systemctl status kdump 会看到如下log:

参考资料:
权威详细的Redhat官方文档 https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Kernel_Crash_Dump_Guide/

CentOS / RHEL 7 : How to configure kdump

How to enable Kdump on RHEL 7 and CentOS 7


http://unixadminschool.com/blog/2015/07/configuring-kdump-to-troubleshoot-kernel-crashes-hangs-or-reboots-in-rhel5rhel6rhel7/#difference-between-chroot-pivot-root

master

Stay hungry, stay foolish.

发表评论

电子邮件地址不会被公开。 必填项已用*标注