本文主要是介绍浪潮信息内存故障预警技术再升级 服务器稳定性再获提升,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
浪潮信息近日对其内存故障智能预警修复技术进行了全面升级,再次取得技术突破。此次升级后,公司服务器的宕机率实现了80%锐降,再次彰显了浪潮信息在服务器技术领域的卓越能力。
浪潮信息全新升级服务器内存故障智能预警修复技术MUPR® (Memory UCE Prevent and Repair),基于对上万台服务器故障数据的建模分析和AI模型算法的训练,围绕“预诊愈”核心技术手段,从单端预警,触发隔离防护升级为BIOS、BMC两级防护,从内存故障提前预警、内存错误实时隔离、内存故障智能修复等技术层级创新,实现在架构设计、错误类型、防护等级等方面全面增强。全天候、多方位监测服务器内存健康状态,精准预测UCE(不可纠正错误)故障,及时处理内存风险单元,使由内存故障导致的服务器宕机风险降低80%+,保障客户业务高效稳定运行。
浪潮信息全新内存故障智能预警修复技术MUPR®拥有超过20项核心专利,覆盖内存故障处理策略、防护系统架构设计、内存健康监控机制等关键技术,能够有效规避内存UCE故障的发生,切实保障服务器内存运行的可靠性和高效性。
专利一:制定“点、线、面”故障修复策略,故障类型全面覆盖
MUPR®依据内存历史日志的错误发生模式,以存储单元的核心构造为基石,实时监测内存“点、线、面”微观故障,高效匹配内存UCE发生状态特征。首先实施内存物理结构微观级别的精准检测,深入至每一个内存Cell的状态识别,通过分析内存错误数据提取故障规则,保障内存“点”故障的准确辨识。其次,MUPR®系统对上万条来自不同品牌、不同容量的内存进行了详尽的故障分析。基于对不同内存厂家器件的行/列结构差异的分析,构建内存“线”故障预测模型。最后,依托对内存历史错误的UCE趋向性以及错误在内存阵列的分布情况,设置内存“面”故障模型,在线精准预测及修复策略,为用户提供更加可靠和稳定的内存使用体验。
专利二:优化内存防护系统架构,降低系统计算压力
MUPR®支持SMI(System Management Interrupt)与PRM(Platform Runtime Mechanism)的选项切换技术,引入PRM技术旨在降低系统计算压力,避免因处理内存故障而影响系统性能。该技术通过收集的内存错误信息进行带外故障预测,根据预测结果决定是否触发系统控制中断。而在触发中断的情况下,操作系统可通过PRM处理模块获取内存故障地址信息,并执行故障隔离操作,客户业务运行全程无打断。
专利三:实时监测内存运行状态,有效减少非计划宕机风险
鉴于任何防护措施都不能完全确保内存器件的持久稳定运行,MUPR®系统构建了一套完善的服务器内存健康监控和风险预警机制。该机制依据内存错误数量、频率、类型、修复状态、错误风暴、温度变化等多方面信息进行内存可靠性评价、性能评价,以便客户在不同业务场景下选择性的对可靠性或性能异常的内存进行计划停机维护,有效规避非计划宕机带来的影响。此外,该技术可有效对内存健康情况进行评测,并根据内存健康度分数对内存异常进行预警,当内存分数低于异常阈值,提示用户及时更换健康硬件。
MUPR®技术开发团队,通过对云数据中心130万台服务器进行综合测评,整体服务器宕机率减少了68%,可帮助客户避免千万美元级别以上的损失。
借助全新内存故障智能预警修复技术MUPR®,浪潮信息成功将内存故障预警与修复技术提升到一个全新的高度。该技术不仅实现了对内存故障的深度预警和精准修复,更在保障服务器稳定运行的同时,有效降低了由内存故障导致的业务中断风险,进一步提升了客户的业务连续性和稳定性。
这篇关于浪潮信息内存故障预警技术再升级 服务器稳定性再获提升的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!