Linux检查硬件错误工具—mcelog命令
[root@RedHat_test ~]# yum install mcelog.x86_64
cron : 最老的方式,有确定,定时任务,会丢失一些
daemon : el7上用这种,守护进程的方式
trigger : 高级一点的方式,触发的时候,看man mcelog
/dev/mcelog 设备文件 /var/log/mcelog messages日志文件 /etc/mcelog/mcelog.conf配置文件 /var/run/mcelog.pid
默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。
如果需要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。
[root@RedHat_test ~]# mcelog --daemon
[root@RedHat_test ~]# mcelog --daemon
[root@RedHat_test ~]# tail /var/log/mcelog # 什么也没有输出,表明正常
[root@RedHat_test ~]# mcelog --client # 什么也没有输出,表明正常
[root@RedHat_test ~]# mcelog --ascii < file.log # or或者 [root@RedHat_test ~]# mcelog --ascii --file file.log
mce-inject用于测试mcelog能否正确的获取硬件错误信息,并进行正确解码,mce-inject可以向内核注入指定的错误信息,因此,可以很方便的了解到mcelog的功能是否正常。
注意的是,当用户利用mce-inject工具向内核注入不可恢复错误(如:fatal)时,会发生死机重新启动等现象,当然,可以通过更改sys文件系统下的tolerate文件来避免此现象的发生。
[root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0 ---------------------------------------------------------------------------------------- 位置 : /sys/devices/system/machinecheck/machinecheck*/ 说明 : 其中machinecheck* 中的 *号由CPU的个数所决定的,如果是双核的,则存在machinecheck0和machinecheck1两个目录,对应目录里都有一个tolerate文件,tolerate中存放容忍程度值。 功能 : 向用户提供一个可选择的出现相应硬件错误时的容忍程度(tolerate),比如:当tolerate的值为1时,出现fatal错误时就会死机,重新启动,并且该错误信息并不被记录;当tolerate的值为3时(注意该值只用于测试),在出现fatal错误时,机器会容忍该错误不予响应,不会出现死机重新启动现象,并且会记录相关错误信息。 ---------------------------------------------------------------------------------------- [root@RedHat_test machinecheck0]# cat tolerant 1 [root@RedHat_test machinecheck0]# echo 3 > tolerant ---------------------------------------------------------------------------------------- 数值含义: tolerate的取值可以为0、1、2、3。 0: always panic on uncorrected errors, log corrected errors 1: panic or SIGBUS on uncorrected errors, log corrected errors 2: SIGBUS or log uncorrected errors (if possible), log corrected errors 3: never panic or SIGBUS, log all errors (for testing only)
[root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils
[root@RedHat_test ~]# cat correct CPU 1BANK 2 STATUS corrected RIP 0x12341234
[root@RedHat_test ~]# modprobe mce-inject
[root@RedHat_test ~]# mce-inject ./correct
[root@RedHat_test ~]# tail /var/log/mcelog TIME 1581565856Thu Feb 1311:50:56 2020 MCG status: MCi status: Corrected error Error enabled MCA: No Error STATUS 9000000000000000MCGSTATUS 0 MCGCAP 100010a APICID 1SOCKETID 0 MICROCODE 1 CPUID Vendor Intel Family 6Model 63 [root@RedHat_test ~]# cat /var/log/messages Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1 Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged
tail /var/log/messages 可以看到日志,但是/var/log/mcelog文件默认在el7上不存在!!原因是默认保存到/var/log/messages。如果希望保存到/var/log/mcelog,需要在mcelog 的service文件中,加入参数--logfile=/var/log/mcelog
,然后重启mcelog
ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog