大规模系统中的亚健康故障(4)外部根因

2023-11-09 12:10

本文主要是介绍大规模系统中的亚健康故障(4)外部根因,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

现在,我们描述硬件亚健康故障的外部根本原因,如温度变化、供电不足、环境条件和配置错误。这些外部原因使故障排除变得复杂,因为症状可能是不确定的,只能在同一在线场景中再现,但在离线(办公室)测试中无法观察到。

5.1 温度

为了使温度保持在正常工作状态,风扇或散热器必须正常工作。以下是未被监测工具检测到的温度变化的根本原因。

空气过滤器堵塞:在一份报告中,空气过滤器堵塞导致交换机中的光学元件由于高温而开始出现故障,从而产生高达10%的丢包率。清洁空气滤清器后,交换机返回正常速度,但只是暂时恢复。很可能是高温损坏了交换机的内部部件。

冷环境:冷温度也会导致亚健康故障[19]。在一次部署中,一些磁盘进入先读后写模式。经检查,机房有“地板下冷空气”系统,这在过去更为常见。机架底部的磁盘具有较高的低性能发生率。这表明温度变化也可能源于部署环境。

风扇损坏:风扇等冷却系统有时作为一个整体工作,而不是单独工作。有一种情况是,计算节点中的风扇停止工作,为了补偿此故障风扇,其他计算节点中的风扇开始以最大速度运行,这会产生严重的噪音和振动,从而降低磁盘性能。同样,这是级联异常的根本原因的一个例子(§3.4)。

风扇固件问题:风扇可以完全正常工作,但其速度由风扇固件控制。在一种情况下,当CPU密集型作业正在运行时,风扇固件的反应不够快,因此CPU在风扇有机会冷却CPU之前进入热节流(降低速度)。

不正确的设计/组装/操作:其中一个故事是,定制主板的设计“糟糕”,导致NIC焊接在CPU和内存后面的主板上。来自CPU的热量影响NIC,导致许多数据包错误和重试。在另一个相关的故事中,由于组装不良,CPU散热器无法与CPU进行物理接触,导致许多节点过热。在另一种情况下,新磁盘被插入带有“非常旧”风扇的机器。风扇没有为较新的磁盘提供足够的冷却,导致磁盘运行缓慢。

5.2 电源

电源供电不足很容易触发硬件的亚健康转台。以下是供电不足的一些根本原因。

​电容器不足:在一种定制主板设计中,主板电源控制逻辑上的电容器在特定负载下无法为CPU提供足够的电压。这使处理器不符合规格要求,导致损坏和重新计算。由于无法可靠地再现问题,诊断时间为数月。为了解决这个问题,在现场的数千个节点中的每个主板上添加了一个小电容器。在类似的案例中,也是电容器不足导致电压下降,但只有当多个核心同时从平静状态提升为性能状态时(一种极端情况)出现。因此,对更新的BIOS和软件进行的独立测试没有再现该问题。

PCU固件错误:在一种情况下,电源控制单元(PCU)的固件进入“奇怪”状态,无法提供足够的电源,整个机架无法关闭电源控制。这是一个暂时性故障,有时可以通过重置控制器、有时重新刷新固件以及在极少数情况下更换PCU来修复。

部分电源故障:在一次部署中,每四台机器共享一个电源。但是,当一个电源发生故障时,没有足够的电源以正常容量运行所有四台机器,因此每台机器上的CPU都会受到50%的限制。当这些机器被用于索引服务时,问题层出不穷,无法跟上请求的数量。这个问题花了好几天时间才解决,因为操作员无法了解电源的健康状况。这个问题也很有趣,因为两个电源并不意味着其中一个是完全工作的备用电源,而一个降低的电源,足以让机器继续工作。

耗电邻居:某些节点运行缓慢,因为同一机架中的其他节点耗电较多,导致机架电源不稳定,机架各个部分的电源供电能力下降。诊断这个问题花了几个月的时间,因为它不是源于速度慢的机器,并且只有在邻近节点上运行耗电的应用程序时才会发生。

主板传感器故障:在对速度较慢的机器进行长时间调试后,操作员发现主板上有一个传感器故障,该传感器向操作系统报告了故障值,从而使操作系统将CPU配置为在节能模式下以较慢的速度运行。

5.3 环境

各种环境条件都可能导致硬件出现亚健康故障,如下所示。

高度引发的重大事件:我们收集的最有趣的报告之一是在7500英尺的高空部署的。在这个高度,一些CPU会变热并进入热节流(性能降低)。显然,故障不在CPU上,而是在供应商的冷却设计中,在如此高的海拔下没有提供足够的冷却。在另一份仍处于相同高度的报告中,一些内存系统出现了比平常更频繁的多位故障(ECC检查和维修增加),这些故障内存随后被运回供应商,并装配更多的内存保护。

松散互连:松散的网络电缆和挤压的光纤导致网络延迟高达数百毫秒,使存储集群表现异常。由于症状不确定,诊断该问题需要几天时间。电缆松动/挤压的原因可能是振动或人为因素。在其他一些情况下,SSD和PCIe插槽之间的PCIe连接松动会导致设备驱动程序层多次重试操作。在另一个故事中,当操作员匆忙修理机器时,NVDIMM没有正确插入。尽管速度要低得多,但这台机器仍能正常工作。

震荡:一些磁盘驱动器在机架中部署时的性能降至100 KB/s,但在办公室中测试时的性能最高为100 MB/s。显然,节点周围有故障的机箱风扇导致了如此强烈的振动,使驱动器进入恢复模式。解决方案是在八个硬盘驱动器螺钉中的每一个都添加减震器,并在所有节点中更换大约10%的系统风扇。

环境和操作条件不匹配:在一个机构中,系统按照公布的时钟频率、温度范围和电压范围正确配置。然而,由于未知的环境条件,它无法以最佳方式工作,解决方案是稍微降低时钟,在处理器温度和电压上放置一个软件监视器,如果电压/温度接近装箱值的边缘(即,死节点优于慢节点),则杀死节点。由于不能可靠地复现,诊断时间为数月。在另一种情况下,交换机环境不支持“巨型帧”,导致10 Gbps吞吐量网络的吞吐量很低。修复方法是将MTU大小重新配置为1500字节。

未知原因:在一份有趣的报告中,集群中的所有独立驱动器同时报告了数十亿个SAS错误,持续了五分钟。报告称,这是一名技术人员在另一台机器上进行维护时发生的。

5.4 配置

虽然硬件通常在默认配置下运行,但今天的硬件具有允许配置参数的“旋钮”。此类配置可由人工操作员或软件/固件层(例如BIOS)修改。在我们的发现中,硬件的亚健康故障可能是由以下错误配置引起的。

有缺陷的BIOS固件:在一家机构中,其中一个系统通常每分钟接收28亿个值,但值写入时间一度增加,需要一分钟以上的时间来处理前几分钟的所有值。运营商增加了更多节点(认为这样可以平衡请求峰值的负载)。与直觉相反,添加更多节点会增加写入时间。诊断持续了一个月。根本原因是BIOS对添加到数据库群集的新机器的CPU进行了错误的时钟关闭。这些机器“一瘸一拐”地前进,但被分配了相同数量的负载(就像一台时钟正确的机器)。类似地,如其他地方[16,§3.6]所述,有缺陷的初始化配置也会禁用处理器缓存。

人为错误:关于SSD连接,并非所有PCIe插槽都有相同数量的通道。人工操作员偶尔会在将PCIe卡映射到具有不同通道数的PCIe插槽时出错,这导致全连接带宽利用率不足。在另一种情况下,xtnird.ini中设置的参数不正确。这是一种通过InfiniBand管理高速网络(HSN)的网络配置,未正确设置,导致网络被节流。关于配置错误,有大量相关工作[5,42]。我们相信还有更多的配置错误会导致硬件故障,而未被记录在生产日志中。

这篇关于大规模系统中的亚健康故障(4)外部根因的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/376005

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

软考系统规划与管理师考试证书含金量高吗?

2024年软考系统规划与管理师考试报名时间节点: 报名时间:2024年上半年软考将于3月中旬陆续开始报名 考试时间:上半年5月25日到28日,下半年11月9日到12日 分数线:所有科目成绩均须达到45分以上(包括45分)方可通过考试 成绩查询:可在“中国计算机技术职业资格网”上查询软考成绩 出成绩时间:预计在11月左右 证书领取时间:一般在考试成绩公布后3~4个月,各地领取时间有所不同

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景