防止数据中心宕机的集成系统测试(IST)

2024-02-05 10:30

本文主要是介绍防止数据中心宕机的集成系统测试(IST),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不久前,洛杉矶地下室爆炸导致其附近的Equinix公司和INTERNAP公司数据中心的电力中断。而谷歌公司在德国的数据中心最近遭受雷击。世纪互联公司新泽西州的一个数据中心冷冻水管道日前发生故障,影响了纽约证券交易所的数据显示。

所有这些事件都发生在最近几周,这些事故呈现出导致数据中心宕机和基础设施故障的类型。

当电源中断或冷却水停止流动时,集成系统测试(IST)可以验证应急电源、机械和监测系统运行的设计和建造,以及应用程序的集群,甚至整个数据中心会回应用户的期望,

“集成系统测试的唯一机会,你将不得不测试设施的完整的力度。”总部在彼得伯勒的英国数据中心测试企业E1E10公司董事总经理斯蒂芬•福特说,其在集成系统测试(IST)方面有着十多年的经验。

实施IST的想法是有道理的,但不是每个人都尽他们可能去做。比较IST做备份或灾难恢复(DR)。每个人都进行备份并采取快照,但究竟有多少企业能够实际测试这些备份呢?

 防止数据中心宕机的集成系统测试(IST)

拔掉插头的数据中心

在所有级别的集成系统测试完成之后,Facebook公司最近关闭了其一个数据中心,在所有必要的准备工作到位之后,什么都没有发生。

福特表示,他认为银行和政府机构是进行IST最认真的部门。在某些行业中,对法规和规则的遵从对业务连续性或DR准备可能会迫使组织去执行。但其他公司可能还跳过IST或执行时偷工减料。

“有些人只是刚刚经历就是说他们已经做到了,这并不是系统的真正考验。”福特说。

vXchnge公司是一家在美国拥有15个数据中心的主机托管提供商,作为中立的供应商,其每年都做一次完整的集成系统测试IST。该公司在客户已启动并运行业务之前执行IST,然后每年实施一次。

“它创造了在受控环境中混沌的可能性。”vxchnge公司的佛罗里达州坦帕市工程高级副总裁和首席技术官阿里•玛利斯说。

Vxchnge公司在一个数据中心进行的可以发现各种各样的问题,第一次实施IST是其显示控制和监测系统,其电源电路并没有全部连接到UPS供电系统。

“当我们把插头拔了,我们发现监控系统变暗了。”他说。

玛利斯注意到,“N+1”数据中心设施的可靠性更高,因为其没有单一故障点,因此风险较低。“这个事件验证冗余系统可以用无缝的方式捕捉负载运行的情况。”他说。

VXchnge公司取得了一定的增长,在最近几个月购买了几家数据中心。在一个案例中,该公司无法确定哪一次是其实施IST的最后一次。

“我们不了解所不知道的东西,而是将我们能回答这些问题的唯一途径。”“玛利斯说。“有些企业只是刚刚经历就说他们已经做到了,其实这不是真正的系统测试。”

玛利斯致力于集成系统测试工作超过15年,他表示期待两件事:数据中心可以实现端到端的运营,以及人员和流程可以得到正确的反应。

这很重要,因为“工作人员的错误仍是数据中心宕机的最主要的因素。”玛利斯说,

“大多数主要的多租户数据中心托管提供商都在实施IST,但其频率可能会有所不同。”玛利斯表示,他曾在Equinix工作过三年,每年实施IST是标准的做法。

不要害怕IST

玛利斯表示,托管客户通过开展自己的类似的测试与他们的供应商合作,而实施IST可能是一个机会,客户可以通过失败的案例,可以更加重视数据中心的冗余备份工作。

对于vXchnge公司来说,总是提前通知客户要有足够的注意,使他们能够按计划实施自己的试验。

E1E10公司总经理斯蒂芬•福特建议,数据中心运营商最好每周对其发电机组和UPS供电系统进行一次离线测试。他曾参与的一次IST中,其中一个公司的数据中心一年之内都没有运行过。在另一种情况下,他发现在柴油贮存罐发现有水,这是一种常见的情况,可能是由于温度变化,或者很长时间没有使用柴油燃料。

福特表示,企业的最高管理层担心集成系统测试的结果可能是其最大的障碍。尽管如此,如果数据中心已经到位,并建立了备用电源和故障转移的计划,但人们从来没有用过,那么怎么知道这是否真的有用?

福特说:“他们只认为这是创造风险的测试。直到有了错误,却很难说服他们去这些做。”

对于一个大型汽车公司来说,星期六是一个忙碌的日子。福特说,而星期一上午,汽车公司管理层对周末的汽车销售数量进行了审查,发现没有任何出售车辆。原来,该公司的数据中心已经宕机,其备份失败,销售数据没有保存下来。

福特说:“IST这一业务尚未实现其数据中心的关键使命。”

总部在加利福尼亚州布雷亚的PLANNET公司数据中心支持系统经理迈克尔•福鲁曼表示,他曾在现场设备进行完整的集成系统测试时遇到过类似的问题。

“反对者说实施IS会冒很大的风险。”福鲁曼说。

福鲁曼表示,如果IST在计划和排练时得到了密切关注,其风险很低,远远小于数据中心业务关键时刻到来的风险。

“实施IST通常在星期天凌晨3点在或某些疯狂的时候进行。”福鲁曼说。

福鲁曼和玛利斯一样,都认为采购数据中心时实施IST的一个很好的时间。

福鲁曼表示,例如,客户购买了一个使用了五年的数据中心,该数据中心从没有过任何的失败,“但这客户他们真的不知道这个数据中心有什么隐患。”

通常,数据中心一些组件和子系统的个别测试都会首先执行。这有助于检测出来自不同供应商的设备的任何问题。

他说:“数据中心有一些事情可能不是正确的,如果一次都不发生,也可能是很难搞清楚。”这一切导致了一个更大的“拔掉插头测试。”,“每个人都会想,这可能是最后一个。”福鲁曼说。

在企业数据中心中,集成系统测试将让数据中心设施更加完善,IST往往需要更详细的协调执行。

玛利斯表示,人们没有理由不这样做,如果有条件,人们在拔掉数据中心插头之前,解决那些需要解决的问题。



作者:何妍 

来源:51CTO

这篇关于防止数据中心宕机的集成系统测试(IST)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/680617

相关文章

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

C# 防止按钮botton重复“点击”的方法

在使用C#的按钮控件的时候,经常我们想如果出现了多次点击的时候只让其在执行的时候只响应一次。这个时候很多人可能会想到使用Enable=false, 但是实际情况是还是会被多次触发,因为C#采用的是消息队列机制,这个时候我们只需要在Enable = true 之前加一句 Application.DoEvents();就能达到防止重复点击的问题。 private void btnGenerateSh

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

PHP防止SQL注入详解及防范

SQL 注入是PHP应用中最常见的漏洞之一。事实上令人惊奇的是,开发者要同时犯两个错误才会引发一个SQL注入漏洞。 一个是没有对输入的数据进行过滤(过滤输入),还有一个是没有对发送到数据库的数据进行转义(转义输出)。这两个重要的步骤缺一不可,需要同时加以特别关注以减少程序错误。 对于攻击者来说,进行SQL注入攻击需要思考和试验,对数据库方案进行有根有据的推理非常有必要(当然假设攻击者看不到你的

PHP防止SQL注入的方法(2)

如果用户输入的是直接插入到一个SQL语句中的查询,应用程序会很容易受到SQL注入,例如下面的例子: $unsafe_variable = $_POST['user_input'];mysql_query("INSERT INTO table (column) VALUES ('" . $unsafe_variable . "')"); 这是因为用户可以输入类似VALUE”); DROP TA

PHP防止SQL注入的方法(1)

(1)mysql_real_escape_string – 转义 SQL 语句中使用的字符串中的特殊字符,并考虑到连接的当前字符集 使用方法如下: $sql = "select count(*) as ctr from users where username ='".mysql_real_escape_string($username)."' and password='". mysql_r