Linux检查硬件错误工具—mcelog命令

admin10个月前笔记104
安装
[root@RedHat_test ~]# yum install mcelog.x86_64
mcelog的启动方式

cron : 最老的方式,有确定,定时任务,会丢失一些

daemon : el7上用这种,守护进程的方式

trigger : 高级一点的方式,触发的时候,看man mcelog

mcelog相关文件
/dev/mcelog 设备文件

/var/log/mcelog messages日志文件

/etc/mcelog/mcelog.conf配置文件

/var/run/mcelog.pid

默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。

如果需要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。

mcelog后台运行
[root@RedHat_test ~]# mcelog --daemon
查看系统是否异常
1.手动运行mcelog的方式
[root@RedHat_test ~]# mcelog --daemon
查看mcelog日志
[root@RedHat_test ~]# tail /var/log/mcelog
# 什么也没有输出,表明正常
查看mcelog守护进程是否检测到错误信息
[root@RedHat_test ~]# mcelog --client
# 什么也没有输出,表明正常
解析系统异常时的mcelog输出
[root@RedHat_test ~]# mcelog --ascii < file.log
# or或者
[root@RedHat_test ~]# mcelog --ascii --file file.log
测试
1.修改tolerate

mce-inject用于测试mcelog能否正确的获取硬件错误信息,并进行正确解码,mce-inject可以向内核注入指定的错误信息,因此,可以很方便的了解到mcelog的功能是否正常。

注意的是,当用户利用mce-inject工具向内核注入不可恢复错误(如:fatal)时,会发生死机重新启动等现象,当然,可以通过更改sys文件系统下的tolerate文件来避免此现象的发生。

[root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0
----------------------------------------------------------------------------------------
位置 : /sys/devices/system/machinecheck/machinecheck*/
说明 : 其中machinecheck* 中的 *号由CPU的个数所决定的,如果是双核的,则存在machinecheck0和machinecheck1两个目录,对应目录里都有一个tolerate文件,tolerate中存放容忍程度值。
功能 : 向用户提供一个可选择的出现相应硬件错误时的容忍程度(tolerate),比如:当tolerate的值为1时,出现fatal错误时就会死机,重新启动,并且该错误信息并不被记录;当tolerate的值为3时(注意该值只用于测试),在出现fatal错误时,机器会容忍该错误不予响应,不会出现死机重新启动现象,并且会记录相关错误信息。
----------------------------------------------------------------------------------------
[root@RedHat_test machinecheck0]# cat tolerant
1
[root@RedHat_test machinecheck0]# echo 3 > tolerant
----------------------------------------------------------------------------------------
数值含义:
tolerate的取值可以为0、1、2、3。
0: always panic on uncorrected errors, log corrected errors
1: panic or SIGBUS on uncorrected errors, log corrected errors
2: SIGBUS or log uncorrected errors (if possible), log corrected errors
3: never panic or SIGBUS, log all errors (for testing only)
2.安装
[root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils
3.捏造文件
[root@RedHat_test ~]# cat correct
CPU 1BANK 2
STATUS corrected
RIP 0x12341234
4.加载mce-inject模块
[root@RedHat_test ~]# modprobe mce-inject
5.在终端执行文件
[root@RedHat_test ~]# mce-inject ./correct
6.查看/var/log/mcelog,/var/log/messages
[root@RedHat_test ~]# tail /var/log/mcelog
TIME 1581565856Thu Feb 1311:50:56 2020
MCG status:
MCi status:
Corrected error
Error enabled
MCA: No Error
STATUS 9000000000000000MCGSTATUS 0
MCGCAP 100010a APICID 1SOCKETID 0
MICROCODE 1
CPUID Vendor Intel Family 6Model 63
[root@RedHat_test ~]# cat /var/log/messages
Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1
Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged
同样的方式,在el7上设置

tail /var/log/messages 可以看到日志,但是/var/log/mcelog文件默认在el7上不存在!!原因是默认保存到/var/log/messages。如果希望保存到/var/log/mcelog,需要在mcelog 的service文件中,加入参数--logfile=/var/log/mcelog,然后重启mcelog

ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog


相关文章

PHP 驱动 MongoDB 的方法和技巧

创建索引有时会阻塞新的连接然而,如果一个节点是“UP”状态,但是持有写锁,那么验证将没法执行下去,因此该驱动程序将被挂起了。在mongodb 2.6版本前,在建立索引时的通病。所有的在前台或后台创建索...

网络钓鱼工具及技术

网络钓鱼工具及技术

我们都曾收到这样的邮件,宣布“你中了大奖”或邀请你“参加幸运抽奖免费游迪士尼”。而实际情况与邮件内容大相径庭。多数情况下,这些邮件是钓鱼骗局,只要点击了其中的链接就会进入到以获取个人信息为目的的假冒网...

K8S Service服务发现

K8S Service服务发现

一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;对于测试「Tes」环境或者生产「Pro」环境,出于安...

列出所有的 Bash Shell 内置命令

列出所有的 Bash Shell 内置命令

shell 内置命令就是一个命令或一个函数,从 shell 中调用,它直接在 shell 中执行。 bash shell 直接执行该命令而无需调用其他程序。你可以使用 help 命令查看 Bash 内...

6种Linux进程间的通信方式

6种Linux进程间的通信方式

进程的概念进程是操作系统的概念,每当我们执行一个程序时,对于操作系统来讲就创建了一个进程,在这个过程中,伴随着资源的分配和释放。可以认为进程是一个程序的一次执行过程。进程通信的概念进程用户空间是相互独...

如何使用WPSeku找出 WordPress 安全问题

如何使用WPSeku找出 WordPress 安全问题

然而,如果我们遵循通常的 WordPress 最佳实践,这些安全问题可以避免。在本篇中,我们会向你展示如何使用 WPSeku,一个 Linux 中的 WordPress 漏洞扫描器...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。