ceph之rados设计原理与实现第七章:在线数据恢复——Recovery和Backfill

本文主要是介绍ceph之rados设计原理与实现第七章:在线数据恢复——Recovery和Backfill,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

由于每个写操作都需要产生和操作日志,所以处于效率考虑,必须定时对日志进行裁剪。
由于PG保存的日志条目有限,按照能否依靠日志进行数据恢复,存在两种数据恢复方式,分别为Recovery和Backfill。

Recovery指只需要修复副本(PG)上与权威日志不同步的那部分对象(即降级对象即可)。missing已经记录
Backfill指以PG全体对象为目标的数据迁移过程。例如所在OSD离线太久而期间产生大量客户端发起的读写请求,或者Ceph自身出于数据重平衡需要而执行Backfill。

1.Recovery

1.1 资源预留

为了防止集群中大量PG同时执行Recovery从而严重影响正常业务,需要对Recovery进行约束
在这里插入图片描述
在这里插入图片描述
为了实现上述约束,在PG正式开始执行Recovery任务之前,必须先由Primary主导,发起资源预留

所谓的资源预留:Primary(一个PG实例)必须先加入所属OSD的全局异步资源预留队列,如果OSD资源够,就会给队列头PG分配资源。
Primary得到OSD资源后,需要进一步通知所有参与本次Recovery的副本远程进行资源预留,所有副本都获得资源后,才能开始Recovery。

所有需要执行Recovery的PG也会进入op_shardedwq工作队列,与来自客户端的请求一同参与竞争。

1.2 对象修复

Pull:指Primary自身存在降级对象,由Primary按照missing_loc选择合适的副本去拉取降级对象的权威副本至本地,然后完成修复的方式
Push:指Primary感知到一个或者多个副本当前存在降级对象,主动推送每个降级对象的权威版本至副本,然后再由副本本地完成修复的方式。

无论是Pull还是Push进行修复,最终依据都是日志。
日志可以细分为以下几种类型:CLONE、DELETE、MODIFY、LOST_DELETE / LOST_REVERT

(1) 整对象拷贝
除了DELETE 、LOST_DELETE之外的操作,一律采用整对象拷贝的方式进行修复。
顾名思义,这种方式会完整从源端拷贝包括数据、扩展属性、omap在内的全部对象内容至目的端。

(2) 删除对象
对于DELETE 、LOST_DELETE操作,采用删除对象方式进行修复

虽然Recovery是在后台执行的,但是如果客户端正好访问某个降级对象,则还是需要先强制修复该对象,才能继续处理来自客户端的请求。

1.3 增量Recovery和异步Recovery

综上,当前Recovery有两大缺陷:一是修复手段单一并且粗糙(整对象拷贝),占用大量磁盘带宽和网络带宽;二是如果客户端访问降级对象,需要(完全)修复这些对象之后才能继续处理客户端请求,容易引起业务卡顿
相应的有两种方法改善,增量Recovery和异步Recovery
(1) 增量Recovery
重新设计日志系统,使之能够回溯历史操作的详细信息,这样后续可只修复降级对象与其权威版本之间差异部分。但是相应的代价是日志系统复杂会影响写性能,因为日志需要伴随写请求同步写入数据库。其次虽然修复量下降,但是修复难度会增加,一个极端的例子,例如针对一个对象反复执行不同的操作,后续想要基于为数众多的历史日志分析得出最佳修复方式绝非易事,反而不如整对象拷贝简单高效

(2) 异步Recovery
针对客户端写请求降级对象强制触发该降级对象执行数据恢复的策略改造,即只需要保证满足存储池最小副本数。这样数据可靠性仍然可以得到保证,而剩下的副本则可以采用类似Backfill的方式(但是仍然基于日志)异步在后台修复,不再阻塞来自客户端的写请求。

2 Backfill

Recovery后,才会执行Backfill,此时Primary(PG的一个实例)一定是权威版本。
同样,由Primary主导,先进行Backfill资源预留,资源预留成功后,PG开始正式执行Backfill。
Backfill最终效果是需要Backfill的副本获得Primary的一个完美的拷贝,但是PG的大小只受存储空间的限制,因此Backfill需要先扫描PG上所有对象,获得所有对象信息。
扫描的信息存储在backfill_info中
在这里插入图片描述

具体而言,如果Backfill任务初次被调度,Primary必须先通过ObjectStore扫描对象(遍历KV数据库存储的对象元数据)获得一个本次待执行Backfill对象的严格有序列表。然后再通知所有参与本次Backfill的副本也同步扫描,并将结果返回给自身汇总。
显然,每个副本收集到的对象信息,可能完全不一样。
具体而言,
相比Primary,副本上的对象信息的不一样可以分为四类:
1)缺少某些对象(Missing Object)
2)存在某些多余对象(Redundant Object)
3)对象存在,但与Primary版本号不一致,即对象已经过时了(Obsolete Object)
4)对象存在并且与Primary版本号一致(Normal Object)

对应的修复策略为:
1)拷贝对象
2)删除对象
3)修复对象
4)跳过对象

对于每个即将从头开始Backfill的副本,Primary会在Peering完成之后将其Info中的stat清零,此后,随着Backfill的推进,Primary会不断收集相关的统计信息并更新对应副本的stat。
1)拷贝或修复对象:等待拷贝或者修复完成后,再收集这些对象的统计信息并更新对应副本的stat
2)删除对象:不需要更新stat
3)跳过对象:由前面的分析,跳过的对象是正常对象,由于其相关统计已经被Primary擦除,因此仍需要重新计入副本的stat

Primary会通过一个名为last_backfill_started的指针来记录上次Backfill的实时进度。

达到最大并发Backfill对象数目限制之后,Primary将结束本次调度,由于Backfill业务优先级较低,后续有可能一直被其他业务特别是客户端业务抢占,这意味着Backfill两次调度的时间间隔基本不可预料。
为了防止两次调度之间,backfill_info当中残留的、等待Backfill的对象信息已经过时(例如在此期间客户端针对其中的某些对象又执行过写操作),当Backfill任务再次被调度时,必须由Primary确认是否需要重新扫描。

1)与上次扫描发生时Primary记录的最新日志版本号相比,当前最新日志版本号没有发生变化(例如系统处于空闲状态,无客户端访问),则无需重新扫描
2)上次扫描记录的最新日志版本号大于等于Primary当前保存的最老日志版本号,说明日志完整记录了两次扫描间所有写请求信息,此时可以直接通过遍历日志获得相关对象的最新版本信息
3)上次扫描记录的最新日志版本号比Primary当前保存的最老日志还要小,说明两次扫描间某些写请求信息已经缺失,需要Primary重新发起扫描。

举例:
在这里插入图片描述
删除对象因为代价较小,第一次调度没有受到最大并发数限制,因此第一次调度Primary实际上一次性处理了4个对象
Obj1:通知ReplicaA删除
Obj2:通知ReplicaA和B删除
Obj3:通知ReplicaA和B修复
Obj4:通知ReplicaA、ReplicaB、ReplicaC修复
在这里插入图片描述

一些特殊情况如OSD正在Backfill,但是OSD下线在上电时间间隔不长,期间所有发生过的写请求,其对应的日志条目都可以从权威日志找到,那么可以正常完成Recovery后再从上次断点处(last_backfill_started)继续Backfill

Backfill完成后,Primary将向Monitor发送一个新的PG Temp变更请求(此请求携带的PG Temp为空),用于将Acting重新调整为Up。再次经过Peering后PG将最终进入Acting+Clean状态,此时可以删除不必要的副本,释放其占用的存储空间。

这篇关于ceph之rados设计原理与实现第七章:在线数据恢复——Recovery和Backfill的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/638354

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

电力系统中的A类在线监测装置—APView400

随着电力系统的日益复杂和人们对电能质量要求的提高,电能质量在线监测装置在电力系统中得到广泛应用。目前,市场上的在线监测装置主要分为A类和B类两种类型,A类和B类在线监测装置主要区别在于应用场景、技术参数、通讯协议和扩展性。选择时应根据实际需求和应用场景综合考虑,并定期维护和校准。电能质量在线监测装置是用于实时监测电力系统中的电能质量参数的设备。 APView400电能质量A类在线监测装置以其多核

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo