看完这篇,DWS故障修复不再愁

2023-10-10 02:40
文章标签 故障 修复 dws 不再 这篇

本文主要是介绍看完这篇,DWS故障修复不再愁,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。

本文分享自华为云社区《GaussDB(DWS)故障修复系统性介绍》,作者: 闻鲜生。

DWS是一个分布式架构的MPP集群,物理部署上涉及数百数千台主机和对应的磁盘,以及这些主机所在的大规模分布式高速组网环境。在逻辑上,MPPDB包括CM、GTM、CN、DN各种实例组件的配合工作。因此DWS的故障场景较多,不过我们提供了针对各种故障场景的系统性修复方案。通过此文可以了解DWS服务面临的故障场景和对应的修复方案。

硬件故障场景

1、可修复故障:主要是指硬件故障后可以修复,并且不会造成数据损坏或者丢失,比如内存条故障更换,raid组内磁盘故障更换,主机断电重启等。这种故障场景下,等待硬件故障恢复后,上面的数据库实例会自动启动并恢复。

2、磁盘故障:包括磁盘故障和raid组故障,可能导致CN,DN数据损坏或者丢失。这种故障场景下,等待硬件故障修复后,需要对上面的CN实例做元数据修复,DN实例做数据修复,CM,GTM实例做配置修复。

3、主机故障:包括系统盘损坏,其他硬件故障导致的主机无法启动等,会导致该主机上部署的软件和数据丢失。这种故障场景下,则需要更换主机,使用新主机替换故障主机,需要在新主机上重装数据库软件,重建上面的数据库实例。

软件故障场景

DWS逻辑上包括OM,CM,GTM,CN,DN六种类型的实例组件,每类组件提供的功能不动,配置的数量也不同,但是共同配合,支撑DWS的运维和业务功能。如下是DWS服务的一种简单部署拓扑图(其中OM属于静态工具因此不再列出,为了拓扑简洁性DN从备也未列出):

其中硬件故障最终体现到DWS数据库实例故障上,DWS集群修复也是通过修复每类故障实例来进行的,每类实例的修复条件和修复思路如下:

  • 集群管理组件(CM)
    • cm_server:主备模式,主备至少有一个正常的才能修复。主要修复配置,以对端为模板重建故障实例。
    • cm_agent:每个节点都部署一个cm_agent,原则上只要有一个正常的cm_agent就能修复。主要修复配置,以正常的cm_agent为模板重建故障实例。
  • 全局事务管理(GTM):主备模式,主备至少有一个正常的才能修复。主要修复配置和少量数据(xid,序列等),以对端为模板重建故障实例。
  • 协调节点(CN):多主多活模式,每个节点可部署一个CN实例,整个DWS集群最多部署20个CN实例。只要有一个正常的CN就能修复。主要修复配置和元数据,以正常的CN为模板重建故障实例。
  • 数据节点(DN):多切片模式,最多支持2048个数据切片。每个数据切片又包括主机,备机,从备三副本。每个DN切片主备从只能故障一个。主机或备机故障以对端实例为模板修复故障实例配置和数据。从备故障以主机实例为模板修复故障实例的配置。

故障修复场景

结合硬件故障场景和软件故障场景,DWS支持的故障修复主要包括:DN主备build,实例修复,节点修复(温备)

DN主备build

DN主备副本通过WAL实时同步数据,由CM来自动完成DN主备实例的状态监控、主备冲裁、主备切换及主备build。如果主DN所在机器发生故障,CM自动完成DN主备切换(备机升主,主机降备),如果故障恢复后,CM会自动做DN主备数据同步(build)来重建故障备机。该场景主要包括机器宕机重启,更换内存条等,是最常见的故障场景也是最简单的故障场景,DWS已经支持自动化处理。

实例修复

实例修复主要指相对于“DN主备build”更复杂的故障场景,该故障场景主要是指某个机器(或多台机器)发生实例级别故障,实例范围包括CM、GTM、CN、DN等实例,故障范围主要包括实例的配置或者数据发生损坏或者丢失,但是故障机器的OS系统和DWS数据库软件还是正常的。该故障场景主要包括机器数据盘,raid组损坏,更换磁盘等。

典型的故障场景和修复示意图如下:

该故障场景DWS已经不能做自动化修复,但是提供了一键式修复工具gs_replace,需要运维人员分析故障场景,预估修复耗时,然后在业务空闲时间窗进行修复。

CM、GTM主要修复配置,秒级修复,对业务和系统负载影响很小;CN涉及元数据重建,耗时与表数量正相关,并且在修复后期会短暂锁集群做元数据追增,阻塞用户DDL业务;DN涉及数据重建,耗时与数据量正相关,修复过程中不影响业务,但会消耗系统的网络和IO资源。

节点修复

节点修复主要处理更加复杂的故障场景,该故障场景主要是指某个机器(或多台机器)发生整机故障,如CPU、内存故障,OS系统损坏导致的机器无法启动。

该故障场景修复思路如下:

1、确认故障范围,包括故障机器,影响的数据库实例。

2、故障机器断电下网。

3、重新准备一台新机器,新机器软硬件规格要和故障机器一样。

4、把新机器的主机名和IP修改成故障机器一样,并加入到DWS集群网络内。

5、通过DWS修复工具在新机器上重建故障机器上的软件、配置和数据。

温备

温备处理的故障场景和节点修复一样,主要是修复方式不一样,温备主要适用于云上场景或者有机器富裕的用户。

主要使用场景如下:

1、针对N台主机的DWS集群,提前规划M台机器作为温备机器,温备机器软硬件规格和DWS集群机器一样。并把温备机器也加入到DWS集群网络环境内。

2、如果DWS集群内某台机器发生了硬件故障且无法修复。

3、把故障机器断电并下网。

4、从温备机器中任找一台机器,然后使用DWS修复工具在温备机器上重建故障机器上面的软件、配置和数据。

本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。具体的使用说明和操作步骤可参见DWS产品文档,从此对DWS故障修复不再愁。

点击关注,第一时间了解华为云新鲜技术~

这篇关于看完这篇,DWS故障修复不再愁的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/177355

相关文章

负债不再是障碍?银行信贷“白名单“揭秘

谈及银行信贷产品,常闻有言称存在无需考量负债与查询记录之奇品,此等说法十有八九为中介诱人上钩之辞。轻信之下,恐将步入连环陷阱。除非个人资质出类拔萃,如就职于国央企或事业单位,工龄逾年,五险一金完备,还款能力卓越,或能偶遇线下产品对查询记录稍显宽容,然亦非全然无视。宣称全然不顾者,纯属无稽之谈。 银行非慈善机构,不轻易于困境中援手,更偏爱锦上添花之举。若无坚实资质,即便求助于银行亦难获青睐。反

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

【经验交流】修复系统事件查看器启动不能时出现的4201错误

方法1,取得『%SystemRoot%\LogFiles』文件夹和『%SystemRoot%\System32\wbem』文件夹的权限(包括这两个文件夹的所有子文件夹的权限),简单点说,就是使你当前的帐户拥有这两个文件夹以及它们的子文件夹的绝对控制权限。这是最简单的方法,不少老外说,这样一弄,倒是解决了问题。不过对我的系统,没用; 方法2,以不带网络的安全模式启动,运行命令行,输入“ne

笔记本电脑开机报错故障的原因及解决办法

笔记本电脑开机报错故障是指笔记本电脑开机自检时或启动操作系统前停止启动,在显示屏 出现一些错误提示的故障。   笔记本电脑开机报错故障的原因及解决办法   造成此类故障的原因一般是笔记本电脑在启动自检时,检测到硬件设备不能正常工作或在自 检通过后从硬盘启动时,出现硬盘的分区表损坏、硬盘主引导记录损坏、硬盘分区结束标志丢失 等故障,笔记本电脑出现相应的故障提示。   维修此类故障时

Windows系统不关机故障的解决方法

当Windows系统出现不关机故障时,首先要查找引起Windows系统不关机的原因,然后根据 具体的故障原因采取相应的解决方法。   Windows系统不关机故障的解决方法如下。   1.检查所有正在运行的程序   检查运行的程序主要包括关闭任何在实模式下加载的TSR程序、关闭开机时从启动组自动启 动的程序、关闭任何非系统引导必需的第三方设备驱动程序。   检查运行的程序并停

IBM Storwize V7000存储控制器故障节点报错574

背景:由于客户机房搬迁,需要下电迁移设备。该存储自2016年投入生产使用后,从未关过机,已正常运行七八年时间,期间只更换过硬盘,无其他硬件故障。 在GUI界面点击关闭系统后,大概等了40分钟,存储仍未关机,所有硬盘状态灯绿色常亮,面板无报错。到设备后面看控制器的状态,发现node2已经正常关机了,node1仍然在运行,又等了大概20分钟还没有关机,直接将电源线给拔掉了。 再次上电以后,发现

快速搞定“照片调色”!50000+Lr预设滤镜模板,一键让你照片不再丑!

照片调色不仅仅是调整颜色,更是一种艺术表达。通过巧妙地运用 LR 预设,可以突出照片的主题,增强情感共鸣。比如,在风景照片中,使用特定的预设可以让天空更蓝、草地更绿,让大自然的美丽更加生动地展现出来。 在人像摄影中,合适的 LR 预设可以让肤色更加自然、眼神更加明亮,让人物更加迷人。而且,LR 预设还可以根据不同的风格和场景进行定制,满足各种个性化的需求。如果你对照片调色还不是

服务器数据恢复—Raid磁盘阵列故障类型和常见故障原因

出于尽可能避免数据灾难的设计初衷,RAID解决了3个问题:容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。 常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的:当部分数据异常时,可通过特定算法将数据还原出来。以RAID5为例:如果要记录两个数字,可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5

六种msvcp110.dll丢失修复的方法分享,有效快速修复msvcp110.dll丢失

在日常使用电脑的过程中,我们可能会遭遇各种程序运行错误,其中“msvcp110.dll丢失”是一种非常常见的问题。这个问题通常发生在尝试启动某些程序时,系统会弹出一个错误消息,提示“程序无法启动,因为计算机缺少msvcp110.dll”,这可能会让用户感到困惑和无助。幸运的是,这个问题有多种解决方法,本文将指导你通过几种简单的步骤来修复“msvcp110.dll丢失”的问题,让你的程序回到正常运行

【Redis】Redis Sentinel(哨兵)系统:自动故障恢复与高可用性配置全解

目录 哨兵 (Sentinel)基本概念主从复制的问题⼈⼯恢复主节点故障哨兵⾃动恢复主节点故障 安装部署 (基于 docker)准备⼯作 以下部分是独立于这一章节的Docker安装Server版本安装CentOS安装实战经验 GUI版本安装(以windows 11为例)安装docker 以上部分是独立于这一章节的重新选举redis-master 宕机之后redis-master 重启之