教你如何捕捉内核崩溃信息

admin5个月前笔记49
首先安装必选包:
apt-get -y install aptitude kdump-tools crash kexec-tools makedumpfile linux-image-`uname -r`-dbg 
aptitude full-upgrade # 避免运行的内核版本与调试的版本不一致导致无法调试
Kdump配置文件 /etc/default/kdump-tools 关键部分
USE_KDUMP=1
KDUMP_SYSCTL="kernel.panic_on_oops=1"
KDUMP_KERNEL=/boot/vmlinuz-3.16.0-4-amd64
KDUMP_INITRD=/boot/initrd.img-3.16.0-4-amd64
KDUMP_COREDIR="/data/crash"
KDUMP_FAIL_CMD="reboot -f"
DEBUG_KERNEL=/usr/lib/debug/vmlinux-3.16.0-4-amd64
MAKEDUMP_ARGS="-c -d 31"
KDUMP_CMDLINE="crashkernel=512M"
crashkernel大小配比,正常情况崩溃后1分钟左右会自动重启、配置不正确会导致重启卡住黑屏不动。
内存大小	crashkernel=
0 - 12G	128M
13 - 48G	256M
49 - 128G	512M
129 - 256G	1G *(896M, 768M o或 512M)
Grub配置文件/etc/default/grub关键部分

GRUB_CMDLINE_LINUX_DEFAULT="nmi_watchdog=1 crashkernel=512M"

Sysctl配置文件/etc/sysctl.conf关键部分
kernel.sysrq = 1
kernel.watchdog = 1
kernel.nmi_watchdog = 1
kernel.panic_on_oops = 1
kernel.softlockup_panic = 1
kernel.watchdog_thresh = 10
重启让配置生效
update-grub
reboot -f
kdump-config load 
kdump-config show
校验
# cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-3.16.0-4-amd64 root=UUID=a58ab901-00aa-4f8b-b3eb-d352fc72233 ro net.ifnames=0 thash_entries=1048576 rhash_entries=1048576 biosdevname=0 nohz=off enforcing=0 ipv6.disable_ipv6=1 nmi_watchdog=1 selinux=0 transparent_hugepage=never cgroup_enable=memory swapaccount=1 vga=771 crashkernel=512M
# kdump-config test
USE_KDUMP:         1
KDUMP_SYSCTL:      kernel.panic_on_oops=1
KDUMP_COREDIR:     /data/crash
crashkernel addr:  0x2e000000
kdump kernel addr:
kdump kernel:
   /boot/vmlinuz-3.16.0-4-amd64
kdump initrd:
  /boot/initrd.img-3.16.0-4-amd64
debug kernel:
  /usr/lib/debug/vmlinux-3.16.0-4-amd64
kexec command to be used:
  /sbin/kexec -p --command-line="BOOT_IMAGE=/boot/vmlinuz-3.16.0-4-amd64 root=UUID=a58ab901-00aa-4f8b-b3eb-d352fc7f6acb ro net.ifnames=0 thash_entries=1048576 rhash_entries=1048576 biosdevname=0 nohz=off enforcing=0 ipv6.disable_ipv6=1 nmi_watchdog=1 selinux=0 transparent_hugepage=never cgroup_enable=memory swapaccount=1 vga=771 irqpoll maxcpus=1 nousb systemd.unit=kdump-tools.service crashkernel=512M" --initrd=/boot/initrd.img-3.16.0-4-amd64 /boot/vmlinuz-3.16.0-4-amd64
测试
echo c > /proc/sysrq-trigger

image.png

分析
crash /data/crash/201609010252/dump.201609012233 /usr/lib/debug/lib/modules/3.16.0-4-amd64/vmlinux

image.png

开始欢快的调试之旅

image.png

常用错误 :
WARNING: kernel version inconsistency between vmlinux and dumpfile # 版本不一致,full-upgrade 一下。
崩溃后系统不重启。 # 请检查 sysctl 、 crashkernel 及 nmi_watchdog 的设定!


相关文章

在nginx配置将请求转发到某个真实后端服务ip

在nginx配置将请求转发到某个真实后端服务ip

一、打开nginx机器的nginx配置文件命令:locate nginx.conf会列出所有nginx.conf文件的地址,一般咱们要用的nginx配置文件是/usr/local/nginx...

CentOS7怎样在VMware下配置桥接网络

CentOS7怎样在VMware下配置桥接网络

首先,在以下的配置都操作好之后,要确认宿主机的网络连接方式,若为需要认证的网络,则可能会出现宿主机与虚拟机能互相ping,但虚拟机不能ping外网的情况一、虚拟机配置确保虚拟机为关机的状态,在VMwa...

虚拟主机解决电信网通间互联互通

电信和网通两大基础网络,人为地割裂了整个中国的网络。无论是选择把网站托管在电信、还是网通,都等于是在拒绝处于另外一个网络中的客户,因为实在太慢了。  那么有什么办法可以解决这个问题呢?目前主流的解决方...

PHP 驱动 MongoDB 的方法和技巧

创建索引有时会阻塞新的连接然而,如果一个节点是“UP”状态,但是持有写锁,那么验证将没法执行下去,因此该驱动程序将被挂起了。在mongodb 2.6版本前,在建立索引时的通病。所有的在前台或后台创建索...

HTML5 拖放(Drag 和 Drop)简介

拖放拖放是一种常见的特性,即抓取对象以后拖到另一个位置。在 HTML5 中,拖放是标准的一部分,任何元素都能够拖放。HTML5 拖放实例下面的例子是一个简单的拖放实例:实例<!DOCTYPE&n...

运维稳定性问题的关键–可用性

运维稳定性问题的关键–可用性

复盘更多的是基于事后的总结与提升。那么我们如何发现、测量稳定性问题呢?那么我们就需要请出今天的主角了——可用性。什么是可用性?可用性作为评价业务稳定性的一个重要指标,它可以通过数据量化、建立基线的方式...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。