第⑬讲:OSD硬盘故障处理实战:从诊断到恢复的全流程指南

2024-04-11 11:20

本文主要是介绍第⑬讲:OSD硬盘故障处理实战:从诊断到恢复的全流程指南,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.OSD坏盘更换操作
    • 2.判断OSD是否出现故障的思路
    • 3.模拟osd.5故障
    • 4.OSD故障更换硬盘流程
      • 4.1.将故障的osd.5从集群中删除
        • 4.1.1.从OSD Map中将故障的OSD删除
        • 4.1.2.从Crush Map中将故障的OSD删除
        • 4.1.3.在OSD列表中将故障的OSD删除
        • 4.1.4.将故障的OSD认证信息删除
        • 4.1.5.验证集群中是否已经将故障的OSD删除
      • 4.2.换盘操作

1.OSD坏盘更换操作

在实际环境中,可能会经常遇到OSD对应的硬盘出现了故障,此时就需要对这个OSD进行操作了。

坏盘更换中包括两个阶段:

  • 首先将OSD从Ceph集群中踢出,也就是所谓的缩减OSD。
  • 硬盘修复完成后再以新的OSD的方式加入到集群中。

OSD从集群中踢出时,也会触发Reblanceing数据重分布机制,将OSD中的数据迁移到其他的OSD中,当OSD的数据全部同步完成后,再将OSD彻底移除。

硬盘修复成功后,以新的OSD加入到集群中,此时也会触发Reblanceing机制,将数据再次同步到这个OSD中。

2.判断OSD是否出现故障的思路

比如说ceph-node-3节点中的osd.5出现了故障,对应的状态就会是down,首先去登陆上这台机器,看看系统日志有没有说明硬盘问题。

image-20220404114337782

如果硬盘出现了坏道的情况,就会影响整个集群的性能,从而拖垮整个Ceph集群,遇到这种情况执行上述命令不会显示down的状态,因为磁盘出现了坏道,磁盘还是可以用的,只不过性能有所下降。

此时我们可以通过以下命令看到OSD的延迟,如果值很高的话,就表示OSD可能出现了坏道,一定要把它从集群中删除。

image-20220404114717184

3.模拟osd.5故障

osd.5运行在ceph-node-3中,直接将服务停掉即可。

[root@ceph-node-1 ~]# ssh ceph-node-3
[root@ceph-node-3 ~]# systemctl stop ceph-osd@5@后面的数字表示osd的id号

此时osd.5已经出现了故障,下面我们来实现当osd出现故障的更换操作。

image-20220404115105610

当有一个OSD出现故障后,就会触发Reblanceing机制,大概在10分钟后才会真正的迁移数据,等数据同步完再进行更换操作。

image-20220404115313094

4.OSD故障更换硬盘流程

OSD故障更换硬盘的流程:

1、首先将硬盘坏掉的OSD从集群中删除。

2、修复硬盘。

3、将硬盘以新的OSD方式加入到集群中。

4.1.将故障的osd.5从集群中删除

和缩减OSD节点的方式一样。

4.1.1.从OSD Map中将故障的OSD删除
[root@ceph-node-1 ~]# ceph osd out osd.5
marked out osd.5. 

从OSD Map中删除故障的OSD后,此时这个OSD的权限就为0了,不再写入数据。

image-20220404115652152

4.1.2.从Crush Map中将故障的OSD删除

在Crush Map中会记录OSD的信息,我们需要在Crush Map中将OSD删除。

image-20220404120105114

在Crush Map中删除OSD。

[root@ceph-node-1 ~]# ceph osd crush rm osd.5
removed item id 5 name 'osd.5' from crush map
4.1.3.在OSD列表中将故障的OSD删除

虽然在Crush Map中已经将OSD删除了,但是在OSD列表中还是有故障的OSD的。

image-20220404120445298

将故障的OSD在OSD列表中删除。

[root@ceph-node-1 ~]# ceph osd rm osd.5
removed osd.5

再次查看,OSD列表中已经没有故障的OSD了。

image-20220404120539718

4.1.4.将故障的OSD认证信息删除

在OSD的认证信息中会记录所有OSD的认证凭据,在这里也需要将故障的OSD删除。

image-20220404120725184

删除故障的OSD认证信息。

[root@ceph-node-1 ~]# ceph auth rm osd.5
updated

再次查看认证信息列表,就会发现故障的OSD已经被删除了。

image-20220404120910253

4.1.5.验证集群中是否已经将故障的OSD删除

原来集群中有8个OSD,选择已经变成7个OSD了,删除成功。

[root@ceph-node-1 ~]# ceph -scluster:id:     a5ec192a-8d13-4624-b253-5b350a616041health: HEALTH_WARN1 nearfull osd(s)9 pool(s) nearfullDegraded data redundancy: 80/6966 objects degraded (1.148%), 4 pgs degraded, 2 pgs undersizedservices:mon: 3 daemons, quorum ceph-node-1,ceph-node-2,ceph-node-3 (age 81m)mgr: ceph-node-1(active, since 37h), standbys: ceph-node-2, ceph-node-3mds: cephfs-storage:1 {0=ceph-node-1=up:active} 2 up:standbyosd: 7 osds: 7 up (since 20m), 7 in (since 14m); 3 remapped pgsrgw: 1 daemon active (ceph-node-1)

4.2.换盘操作

将故障的OSD硬盘修复好之后,将该盘的LVM卷删除,然后通过添加OSD的方式,将该OSD重新加入集群即可。

这篇关于第⑬讲:OSD硬盘故障处理实战:从诊断到恢复的全流程指南的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/893939

相关文章

电脑密码怎么设置? 一文读懂电脑密码的详细指南

《电脑密码怎么设置?一文读懂电脑密码的详细指南》为了保护个人隐私和数据安全,设置电脑密码显得尤为重要,那么,如何在电脑上设置密码呢?详细请看下文介绍... 设置电脑密码是保护个人隐私、数据安全以及系统安全的重要措施,下面以Windows 11系统为例,跟大家分享一下设置电脑密码的具体办php法。Windo

C语言小项目实战之通讯录功能

《C语言小项目实战之通讯录功能》:本文主要介绍如何设计和实现一个简单的通讯录管理系统,包括联系人信息的存储、增加、删除、查找、修改和排序等功能,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录功能介绍:添加联系人模块显示联系人模块删除联系人模块查找联系人模块修改联系人模块排序联系人模块源代码如下

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

mysql外键创建不成功/失效如何处理

《mysql外键创建不成功/失效如何处理》文章介绍了在MySQL5.5.40版本中,创建带有外键约束的`stu`和`grade`表时遇到的问题,发现`grade`表的`id`字段没有随着`studen... 当前mysql版本:SELECT VERSION();结果为:5.5.40。在复习mysql外键约

Git中恢复已删除分支的几种方法

《Git中恢复已删除分支的几种方法》:本文主要介绍在Git中恢复已删除分支的几种方法,包括查找提交记录、恢复分支、推送恢复的分支等步骤,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录1. 恢复本地删除的分支场景方法2. 恢复远程删除的分支场景方法3. 恢复未推送的本地删除分支场景方法4. 恢复

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个