ESXi主机紫屏故障报:Fatal MCE on pcpub

2023-10-27 18:30

本文主要是介绍ESXi主机紫屏故障报:Fatal MCE on pcpub,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、问题描述

在这里插入图片描述
MACHINE-CHECK ARCHITECTURE(MCA)

MCE(Machine Check Exception)是用来报告主机硬件相关问题的一种日志机制,日志文件是/var/log/mcelog;只有发生硬件报错了,才会有 /var/log/mcelog。

上图中有个err=18,即处理器中断18 - Machine-Check Exception (#MC)错误;

二、分析

2.1、MCE现象

Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告硬件(机器)的错误机制,如系统总线错误、ECC错误、奇偶校验错误、缓存错误、TLB错误等。它包括一直MSR(Model-Specific Registers)寄存器,用来设置机器检查和额外的bank MSR记录错误。

当机器检查到不可纠正的machine-check错误时,就触发一个machine-check异常。machine-check架构不允许在出现MCE后处理器重启,但MCE处理程序可以从MSR寄存器收集相关信息。

MCE错误判断原则:

凡是内核死机打印“Machine Check Exception“或内核栈信息中打印有do_machine_check()函数,均为MCE问题。

处理器在探测到 uncorrected machine-check error(硬件不可自修复)的时候,就会发送 machine-check exception (#MC)。这种exception是abort类型的。而MCA的实现通常来讲,是不允许在产生#MC后进行可靠的重启。

machine-check-exception的处理函数,可以通过读取相关的MSR来得到相关的错误信息。
从Intel 45nm(最新的已经规划10nm门电路的芯片)的芯片开始,处理器在发现 corrected machine-check error(硬件可自修复的错误)的时候,也会发送一个中断给系统软件来响应这类MC错误,这种中断被称作CMCI( corrected machine-check error interrupt)

在支持MCA和CMCI的Intel 64处理上,还支持一些额外的增强特性,可以让系统软件来恢复一些特性的 uncorrected recoverable machine check 错误(UCR)。

2.2、MCE错误来源

●PCI-E设备信号质量/时钟
●CPU芯片损坏 /设计 BUG
●CPU Cache损坏或其它故障

●CPU可能的缺陷:如CPU生产制造过程中带来的缺陷

●内存坏/接触不良
●BIOS配置不当
●OS/MCE中断程序Bug
●环境因素,如温度/湿度

在这里插入图片描述

2.3、Machine check相关的MCR:寄存器

Machine check使用了一组相关的MSR。 这些MSR有两部分组成,第一部分是全局控制和状态寄存器(global), 另外一部分是一些记录错误信息的banks。MSR的整体布局如下图所示:
在这里插入图片描述
详情参考:https://blog.csdn.net/chengm8/article/details/53003134

2.4、本次故障原因

结合以往经验及告警提示,本次故障是内存通信错误引起的,表现为:
在这里插入图片描述
具体原因还需待主机硬件人员进一步分析,一般是联系厂商更换内存。

这篇关于ESXi主机紫屏故障报:Fatal MCE on pcpub的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/287548

相关文章

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

Nacos客户端本地缓存和故障转移方式

《Nacos客户端本地缓存和故障转移方式》Nacos客户端在从Server获得服务时,若出现故障,会通过ServiceInfoHolder和FailoverReactor进行故障转移,ServiceI... 目录1. ServiceInfoHolder本地缓存目录2. FailoverReactorinit

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

【虚拟化】AIO主机安装PVE8,配置网络,安装win11(virtio,qcow2,scsi,oobe,adk)

【虚拟化】AIO主机安装PVE8,配置网络,安装win11(virtio,qcow2,scsi,oobe,adk) 文章目录 1、ESXI vs PVE,AIO主机系统二选一2、PVE网络配置(DNS,换源,网卡,https,概览)3、win11虚拟化配置(virtio,raw,qcow2)附,域名解析,rocky9.4,黑群晖 1、ESXI vs PVE,AIO主机系统二选

笔记本电脑开机报错故障的原因及解决办法

笔记本电脑开机报错故障是指笔记本电脑开机自检时或启动操作系统前停止启动,在显示屏 出现一些错误提示的故障。   笔记本电脑开机报错故障的原因及解决办法   造成此类故障的原因一般是笔记本电脑在启动自检时,检测到硬件设备不能正常工作或在自 检通过后从硬盘启动时,出现硬盘的分区表损坏、硬盘主引导记录损坏、硬盘分区结束标志丢失 等故障,笔记本电脑出现相应的故障提示。   维修此类故障时

Windows系统不关机故障的解决方法

当Windows系统出现不关机故障时,首先要查找引起Windows系统不关机的原因,然后根据 具体的故障原因采取相应的解决方法。   Windows系统不关机故障的解决方法如下。   1.检查所有正在运行的程序   检查运行的程序主要包括关闭任何在实模式下加载的TSR程序、关闭开机时从启动组自动启 动的程序、关闭任何非系统引导必需的第三方设备驱动程序。   检查运行的程序并停