BMC解决方案丨服务器故障诊断与预测平台方案设计与实现

本文主要是介绍BMC解决方案丨服务器故障诊断与预测平台方案设计与实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近日,OurBMC社区理事成员单位浪潮计算机科技有限公司基于开放原子开源大赛的成果梳理了一份成熟的可落地方案——《基于BMC技术的服务器故障诊断与预测平台方案设计与实现》。该方案为开放原子开源大赛的冠军之作,极大推动了社区产业化落地的发展和工作。

产业化落地SIG包括软硬件及系统解决方案,重点对产业化落地中遇到的困难点进行分析,并贡献解决方案,为产业化做贡献。

《基于BMC技术的服务器故障诊断与预测平台方案设计与实现》针对 “故障预测” 提出了DTF(Dynamic Threshold Funnel 动态阈值漏斗)算法和CPU高温降频算法。DTF算法解决了用户频繁收到CE(Correctable Error 可纠正错误)告警的问题,并利用CE告警对固定位置部件进行故障预测,提前预知服务器部件的健康状态。CPU高温降频算法可辅助CPU降温,一方面缓解了整机散热的压力,另一方面也降低了CPU因高温带来的一系列损耗和负面影响。

服务器故障诊断与预测平台整体方案

本方案系统架构如下图所示,以飞腾服务器芯片搭配浪潮自研主板为基础硬件,从BMC软件应用角度,设计出集故障数据收集、故障诊断、故障预测为一体的完整方案,主要监控CPU、MEM、PCIe、NVMe、PSU等部件。

图片

故障采集模块的实现

· CPU、MEM、PCIe故障数据采集

OS运行期间,当CPU发生error interrupt或者error register时,PBF模块对硬件错误信息进行收集,并通过MM(Management Mode)模块以及SDEI(software Delegated exception interface)模块将CPER(common platform error record)格式的错误数据发送给BMC和OS。

· PSU、NVMe故障数据采集

针对NVMe硬盘,可以通过BMC透过Smbus协议读NVMe的寄存器,具体命令为i2ctransfer -y {bus} w2@0xd4 0x00 0x04 r1,或者通过代码中Smbus标准接口获取寄存器信息。

针对PSU电源,可以通过BMC透过Pmbus协议读PSU的寄存器,具体命令为i2ctransfer -y {bus} w1@addr 0x79  r2, 或者通过代码中Pmbus标准接口获取寄存器信息。

故障诊断模块的实现

· 对CPU、MEM、PCIe故障数据进行诊断

BMC在进行CPER数据组包接收后,若判断接收到完整的CPER数据,会进行后续数据解析处理。主要流程包括对CPER格式转换,把原始CPER数据转换成JSON格式以及根据所得JSON数据提取重要字段记录错误信息。

图片

· 对PSU、NVMe故障数据进行诊断

针对NVMe硬盘,可以通过BMC透过I2C链路读NVMe的寄存器,当使用Smbus 0x00命令读取0x04寄存器时获取到的数据就是NVMe硬盘的寿命。

BMC通过Smbus接口与PSU进行通讯,通过读取PSU的STATUS_WORD(0x79)寄存器来获取PSU的状态,当电源有Predict_failure情况时上报SEL日志。

故障预测模块的实现

· 对CPU、MEM、PCIe故障数据进行预测

针对飞腾服务器CE告警,采用DTF( Dynamic Threshold Funnel )算法进行故障预测,其故障预测流程图如下:

图片

· 对PSU、NVMe故障数据进行预测

根据IPMI协议,当满足如下条件时,说明电源有Predict_failure情况,此时上报SEL日志。

图片

· NVMe故障预测

BMC通过mi basic command命令向NVMe的物理地址发送命令码获取到NVMe的状态、使用的驱动器寿命百分比(PDLU)等信息,进而对NVMe进行故障预测。获取到NVMe的使用寿命信息后,BMC会将其与预设的阈值进行比较,设定当使用寿命低于10%时,系统将触发告警机制,生成SEL日志。

这篇关于BMC解决方案丨服务器故障诊断与预测平台方案设计与实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114885

相关文章

pandas中位数填充空值的实现示例

《pandas中位数填充空值的实现示例》中位数填充是一种简单而有效的方法,用于填充数据集中缺失的值,本文就来介绍一下pandas中位数填充空值的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是中位数填充?为什么选择中位数填充?示例数据结果分析完整代码总结在数据分析和机器学习过程中,处理缺失数

Golang HashMap实现原理解析

《GolangHashMap实现原理解析》HashMap是一种基于哈希表实现的键值对存储结构,它通过哈希函数将键映射到数组的索引位置,支持高效的插入、查找和删除操作,:本文主要介绍GolangH... 目录HashMap是一种基于哈希表实现的键值对存储结构,它通过哈希函数将键映射到数组的索引位置,支持

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

Java对象转换的实现方式汇总

《Java对象转换的实现方式汇总》:本文主要介绍Java对象转换的多种实现方式,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Java对象转换的多种实现方式1. 手动映射(Manual Mapping)2. Builder模式3. 工具类辅助映

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

Python利用ElementTree实现快速解析XML文件

《Python利用ElementTree实现快速解析XML文件》ElementTree是Python标准库的一部分,而且是Python标准库中用于解析和操作XML数据的模块,下面小编就来和大家详细讲讲... 目录一、XML文件解析到底有多重要二、ElementTree快速入门1. 加载XML的两种方式2.

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组