关于XtremIO 全闪存储维护的一些坑(建议)

2024-05-27 05:12

本文主要是介绍关于XtremIO 全闪存储维护的一些坑(建议),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

XtremIO 是EMC过去主推的一款全闪存储系统,号称性能小怪兽,对付那些对于性能要求极高的业务场景是比较合适的,先后推出了1代和2代产品,目前这个产品好像未来的演进到了PowerStor或者PowerMax全闪,应该不独立发展这个产品了。

由于这款产品推出时间短,市场考验的时间也不是很长,所以产品在维护方面有很多的问题,不是很友善和方便。本文就对我们在处理XtremIO维护过程中的一些典型问题分享给大家,对于出现的具体问题,可以添加vx(wechat) 在StorageExpert进行进一步的沟通。

首先,最重要的一点,这个产品的所有部件更换不是热插拔,不是热插拔,不是热插拔,重要的问题说三遍。即使冗余的控制器电源、扩展柜电源这些部件,也不是热插拔的。热插拔后,会带来一些列的问题,后患无穷。但总有一些人,说我就是直接更换过电源,没有出现问题呀,系统还正常运行呀。问题是你这是把坑留给了别人,如果后面还有部件故障,可能就是double fault。这种问题我一般就不讨论了,你和一个认知存在障碍的人是无法沟通的。他的认知世界就是“发射火箭需要水洗煤,而不能是普通煤球”。

第二,所有的部件更换都建议使用专门的工具,叫做Technician Advisor Utility,简称TA。这个工具有很多个版本,好像是 2.X,3.X和4.x,每个版本对应的是不同的XMS版本。要使用这个工具之前先要搞清楚客户的XtremIO操作系统版本,然后再找对应的TA版本,坚决不要搞错了。

第三,如果没有这个TA工具,是否可以手工更换部件。答案是可以的。在XMS管理控制台上有专门的命令行工具,以replace开头的都是,下面就是replace的命令

replace-bbu                         replace-infiniband-switch

replace-dae                         replace-infiniband-switch-fan-module

replace-dae-controller              replace-infiniband-switch-prepare

replace-dae-controller-prepare      replace-infiniband-switch-psu

replace-dae-fan-pair                replace-local-disk

replace-dae-prepare                 replace-ssd

replace-dae-psu                     replace-ssd-prepare

replace-dae-row-controller          replace-storage-controller

replace-dae-row-controller-prepare  replace-storage-controller-prepare

replace-dimm                        replace-storage-controller-psu

replace-dimm-prepare

但是这些手工更换的命令是给那些非常专业的人员使用的,他知道那些情况可以直接更换,然后运行命令做更新,那些不可以。对于我们这些对于产品接触少的人,建议不要使用。

第三,什么是TA工具呢?

下面是TA2.8工具的说明,给大家翻译过来看看。4.X工具的能力更强,但是4.X对于某些版本是不支持的。目前我们大量遇到的是XtremIO的1代产品,绝大多数都用到的是 2.8版本。所以这里对2.8版本做个介绍。

XtremIO Technician Advisor工具为客户服务工程师(CE或FSS)提供了一种半自动化的方式来执行XtremIO集群上的各种支持任务。XtremIO Technician Advisor工具不支持2.4版本之前的XtremIO。

XtremIO Technician Advisor工具的功能包括:

  • 监控集群:通过Technician Advisor GUI 可以查看X-Bricks,还能旋转各种角度观察,以便清晰查看集群的组件,无论是在前端还是后端。
  • 检查系统健康状况:运行XtremIO健康检查脚本(HCS)来检查集群的健康状况。
  • 检查XtremIO集群电缆:检查连接性和完整性。
  • 在XtremIO集群上执行签名脚本:上传并执行签名脚本,包括执行加密分区初始化脚本的能力。
  • 导入/导出集群配置:半自动方式将一个集群的配置导出到另一个集群,或导回到同一个集群(例如,在将集群的设置复制到灾难恢复站点时)。
  • 更改IP配置:半自动更改XMS和/或集群的IP配置。
  • 更换存储控制器:半自动更换XtremIO集群的存储控制器。
  • 更换DIMM:半自动更换XtremIO存储控制器的DIMM。
  • 更换电池备份单元:半自动更换XtremIO电池备份单元。
  • 更换SSD:半自动更换XtremIO集群的SSD。
  • 在线扩展集群:以不中断的方式在线扩展XtremIO存储阵列,从单个X-Brick集群扩展到双X-Brick集群,从双X-Brick扩展到多X-Brick集群,以及从多X-Brick集群扩展到更大的集群。

第四,看看TA 2.8工具长什么样子

连接XMS或者SC的tech port登录后的外观如下:

第五,运行TA工具,检查过不去,脚本不让执行怎么办?

这个要看具体是什么问题,有些问题是可以跳过去的,但有些问题必须是要解决了才能更换,否则即使跳过,后面更换也会失败,而且还会带来更麻烦的后果,甚至丢失数据。其实这也是为什么XtremIO的部件更换要如此限制的原因。

对于如何跳步,遇到问题,可以联系我们,加vx 在StorageExpert。

好了,今天周末送福利就到这里,都是泪呀。要去处理一个由于未按照流程去做,把问题搞的很复杂的xtremIO 1代case去了。

这篇关于关于XtremIO 全闪存储维护的一些坑(建议)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1006583

相关文章

使用JavaScript操作本地存储

《使用JavaScript操作本地存储》这篇文章主要为大家详细介绍了JavaScript中操作本地存储的相关知识,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录本地存储:localStorage 和 sessionStorage基本使用方法1. localStorage

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

速了解MySQL 数据库不同存储引擎

快速了解MySQL 数据库不同存储引擎 MySQL 提供了多种存储引擎,每种存储引擎都有其特定的特性和适用场景。了解这些存储引擎的特性,有助于在设计数据库时做出合理的选择。以下是 MySQL 中几种常用存储引擎的详细介绍。 1. InnoDB 特点: 事务支持:InnoDB 是一个支持 ACID(原子性、一致性、隔离性、持久性)事务的存储引擎。行级锁:使用行级锁来提高并发性,减少锁竞争

为何我建议你学会抄代码?

文章目录 为何我建议你学会抄代码?一、引言二、抄代码的艺术1、理解抄代码的真正含义1.1、抄代码的好处 2、如何有效地抄代码2.1、发现问题2.2、整理需求2.3、造轮子标准流程 三、抄代码的实践案例1、发现问题2、整理需求3、设计重试机制4、实现重试工具类5、使用重试工具类6、优化和扩展 四、总结 为何我建议你学会抄代码? 一、引言 在编程的世界中,“抄代码” 常被视为一

ORACLE语法-包(package)、存储过程(procedure)、游标(cursor)以及java对Result结果集的处理

陈科肇 示例: 包规范 CREATE OR REPLACE PACKAGE PACK_WMS_YX IS-- Author : CKZ-- Created : 2015/8/28 9:52:29-- Purpose : 同步数据-- Public type declarations,游标 退休订单TYPE retCursor IS REF CURSOR;-- RETURN vi_co_co

可测试,可维护,可移植:上位机软件分层设计的重要性

互联网中,软件工程师岗位会分前端工程师,后端工程师。这是由于互联网软件规模庞大,从业人员众多。前后端分别根据各自需求发展不一样的技术栈。那么上位机软件呢?它规模小,通常一个人就能开发一个项目。它还有必要分前后端吗? 有必要。本文从三个方面论述。分别是可测试,可维护,可移植。 可测试 软件黑盒测试更普遍,但很难覆盖所有应用场景。于是有了接口测试、模块化测试以及单元测试。都是通过降低测试对象

OpenStack离线Train版安装系列—11.5实例使用-Cinder存储服务组件

本系列文章包含从OpenStack离线源制作到完成OpenStack安装的全部过程。 在本系列教程中使用的OpenStack的安装版本为第20个版本Train(简称T版本),2020年5月13日,OpenStack社区发布了第21个版本Ussuri(简称U版本)。 OpenStack部署系列文章 OpenStack Victoria版 安装部署系列教程 OpenStack Ussuri版

多云架构下大模型训练的存储稳定性探索

一、多云架构与大模型训练的融合 (一)多云架构的优势与挑战 多云架构为大模型训练带来了诸多优势。首先,资源灵活性显著提高,不同的云平台可以提供不同类型的计算资源和存储服务,满足大模型训练在不同阶段的需求。例如,某些云平台可能在 GPU 计算资源上具有优势,而另一些则在存储成本或性能上表现出色,企业可以根据实际情况进行选择和组合。其次,扩展性得以增强,当大模型的规模不断扩大时,单一云平