【FOSS】新一代绿色节能对象存储

2023-11-02 08:21

本文主要是介绍【FOSS】新一代绿色节能对象存储,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01 背景概述

2020年9月中国明确了“碳达峰、碳中和”目标,2021年,碳达峰、碳中和被首次写入政府工作报告。该事件标志着中国对促进经济高质量发展,社会繁荣和生态环境保护的决心。

据IDC白皮书预测,中国将在2025年成为全球最大数据圈。据统计中国数据中心的用电量约占中国全社会用电量的2%,一年竟要用掉相当于两个半三峡水电站的年发电量。因此,在确保数据中心业务能力满足需求同时,对数据中心的绿色化提出更高要求成为了我国双碳道路上的关键任务,这一目标也成为今后引领数据中心技术和产业升级的全新方向。

大道云行全新分布式对象存储系统,是支持All Flash全闪的分布式对象存储系统,以绿色节能、超大规模数据长期可靠、高性能存取为目标。一个FOSS数据中心的数据量级可达数百P,百万IOPS。FOSS系统可跨zone进行数据复制、容灾。

在这里插入图片描述
因此本文主要阐述FOSS在绿色节能、大规模数据、高性能等方面的优势所在。

02 技术概况

软件架构
在这里插入图片描述

  • 服务层

支持S3标准对象存储接口,并兼容OSS,且通过兼容posix接口,从而支持NAS及HDFS相关文件协议。

不仅可以支撑视频监控、备份归档、广电媒资等传统对象存储使用场景,还可以支撑人工智能(AI)训练、大数据处理以及高性能计算(HPC)等场景。

  • 调度层

使用和管理存储层的资源,实现横向扩展和弹性伸缩;

调控资源分配,控制数据分配到指定的存储层节点;

进行数据聚合、流控、流量平衡、空间平衡;节能调度,降低功耗;

迁移调度,进行数据热度的智能调度,数据健康巡检,生命周期调度。

同时,提供元数据访问,包括调度资源的元数据和服务层的元数据。

  • 存储层

存储层每个控制器是最小单元,提供对象的存取。

存储层包括对象存储接口,VOLUME资源分配算法、EC冗余算法、SSD管理、元数据管理等模块。

  • 驱动层

实现对新型高密度廉价SSD的节能控制。

主要通过两种方式实现,一是SSD直连主机接口,SSD主控在主机端实现,使用简化的NVMe协议进行数据发送、接收和控制;二是通过jbod框连接主机,SSD在JBOD框内,RDMA方式访问SSD。

  • 物理层

支持X86通用服务器及国产鲲鹏、海光服务器为基础的硬件平台。

硬盘

支持各类NVMe SSD、SATA SSD、SAS以及SATA HDD硬盘,包括PCIe SSD;

网络

支持主流 ↓

1/10/25/40/50/100/200GbE网卡、交换机,以及IB设备。

主要指标

绿色网格组织TGG于2007年,制定了数据中心能效比指标PUE,其基本计算方法如下:

PUE = 数据中心总能耗/IT设备能耗

其中,数据中心总能耗包括IT设备能耗和制冷设备、配电设备以及其他设备的能耗,其值大于1,越接近1表明非IT设备耗能越少,即能效水平越好。

根据工信部印发的《新型数据中心发展三年行动计划(2021-2023年)》,至2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。北京作为数据中心的重要枢纽,管控则更为严格,最低值直逼1.15。

FOSS可通过降低机柜级能耗,助力数据中心提高PUE能效比。

  • 单机柜指标

在这里插入图片描述

  • 节能指标

节能/active模式可手动/智能设置;

节能模式的功耗比active降低一个数量级;

节能/active模式切换的时间<100毫秒。

03 技术特点与分析

绿色节能
在这里插入图片描述

FOSS通过加电组的设计,让系统在保证性能的前提下,尽量少唤醒disk. 让大多数disk都处于待机或深度休眠/下电状态,达成disk使用节能。

加电组=统一进行节能调度的纠删组(EC:erasure code)

  • 每个node(存储节点)包含多个加电组

加电组涉及磁盘数=EC组条块数=16(EC 12:4)

node加电组个数=磁盘数=36

同时只有一个加电组用于写入

  • node节能情况

EC12:4,36个disk有16个disk加电用于写入

所有节点参与写,节电比例:

1-16/36=55% SSD节电

1/3节点参与写,节电比例:

1/3 55%SSD节电,2/3全SSD节电

  • 加电组的意义

减少node同时加电的disk个数,在没有读请求的情况下,每个node只有16/36=45%的disk加电(写入);

整个机柜最多有26*36=936个数据SSD,放置密度很高,若长期全部加电,容易过热、信号干扰,降低SSD使用寿命;

节省node的用电,降低成本。

  • 调度算法实现节能

写入时,在一组node中进行,其他node不写入,过一段配置周期后,换一批node,实现空间均衡;

读取时,每个用户读取一批时间范围的数据,不会到所有node去读,node的加电组也不会全部加电。

  • 机柜用电、节能定量分析

功耗标准:

交换机 200w-按0.5最大功耗算

四子星 300w-按0.7最大功耗算

1U服务器120w-按0.5最大功耗算

插36个数据SSD,每SSD不节能6w,节能1w

单机柜用电分析

服务器功耗:

交换机2(2000.52)+四子星2(3000.72)+1U服务器26 (1200.5*26)=2180w

SSD功耗, 无节电:26366=5600w

SSD功耗, 1/3工作存储节点(55%SSD节能),2/3休眠存储节点(所有SSD节能):(参考前面阐述-工作节点节电SSD比例为55%, 全机柜2/3的节点休眠)

26*(3660.45+3610.55)*1/3+

26*(36*1)*2/3=1014+624=1638w

总功耗2180+5600=7780w

节约5600-1638=4000w, 节约比例51.4%

每天节约96度电,每月节约2900度电

  • 加电组智能节电

加电组提供智能模式,根据算法在节电/性能两种模式中智能切换,进而在保证集群性能的前提下,提高提高效率,减少人力物力投入。

高存储密度

采用大尺度存储介质(16-32T SSD)的存储框或控制器,按机柜集成:

  • 机柜空间划分

4U网络,2个2U万兆交换机

4U计算,2个2U四子星服务器,8个物理机

28U存储,26个1U存储节点,2个1U预留(用于node数据迁移)

余下6U间隙

  • 采用1U存储node,外插方式,disk容易查看和插拔,易于维护

36个16T数据SSD, 576T裸容量

EC(12+4)-432T交付容量,75%

EC(8+2)-460T交付容量,80%

  • 单机柜最大对象存储容量

26个1U存储节点

裸容量-26*576T=15P

EC(12+4)-交付容量15P*0.75=11P

EC(8+2)-交付容量15P*0.8=12P

线性扩展性

  • 跨域扩展

存储域之间数据的调度,由服务层软件进行

  • 域内扩展存储机柜

存储域,比如华南1,…n

存储域网络:

接入层网络-40-200Gb

机柜内网络-40Gb网络

机柜之间rdma不直通,通过接入层网络转发,因此机柜个数不受网络规模限制

每个机柜提供11-12P交付存储容量,冗余比12+4或8+2

假设一个域的最大支持100个机柜,则每存储域最大交付容量为1100-1200P

在这里插入图片描述

高可靠性

  • 元数据(3副本)

按文件平均>1M算,每个文件元数据最大1000字节*3=3k,元数据比例<3/1000;

按元数据存储介质成本为数据存储10倍算,元数据存储成本约为总成本的3%。

  • 数据高可靠性(纠删EC)

高可靠性 EC冗余(8+2), 一个EC组可同时坏2块盘不丢失数据;

极高可靠性 EC冗余(12+4), 一个EC组可同时坏4块盘不丢失数据;

降级情况下,不允许写入;

坏的SSD可通过返厂修复,做到影响的数据最小。

  • 快速rebuild

每个SSD disk读写吞吐大于1GB,整个EC组每秒读写吞吐大于8GB;

按每秒4GB的EC吞吐算:

当一个disk fail,要读出所有EC数据块,进行运算,总运算量为16T8,总时间为16T8/4G=32k秒,约9小时。

通过采用专用硬件计算、合并数据等优化方法,降低rebuild时间,优化EC能力,有望达成每秒8-12GB的EC吞吐量,总rebuild时间有望降低到3-4.5小时。

高可用性

  • 写数据

任意node可用,则可写。

  • 读数据

如果控制器物理故障不可恢复,可更换控制器,将已有的SSD重新插入重建。

可观测性

  • 系统状态监控

硬件状态(CPU,内存,网卡,disk,风扇…);

IO(流量,IOPS,QPS…);

空间(已用空间,剩余空间);

各级服务状态。

  • 存储资源监控

每个disk巡检情况;

volume的空间占用率,擦写次数;

已用空间的资源分布(空间均衡观测);

每个租户占用的volumes(聚合性观测)。

高级特性

  • QLC分层

QLC闪存颗粒拥有比TLC更高的存储密度,同时成本上相比TLC更低,优势就是可以将容量做的更大,成本上更低,但劣势就是P/E寿命更短,理论擦写次数低。

我们研发出特有的分层机制,同时支持高性能写数据层和(温/冷)读数据层,数据先写入到写缓存层,再根据算法定期将数据迁移到QLC磁盘组成数据层,保证数据能大块顺序写入到QLC介质中,大幅降低数据擦除的频率,且不会有无效的数据搬移,从而弥补了QLC介质的缺陷,让用户在拥有的高性能的同时,还实现了最优的成本。

全域范围SSD磨损平衡,最大程度降低SSD写放大,提高QLC使用寿命。

  • 大比例的EC纠删码机制

支持8+M,12+M,16+M的大比例纠删码,在保证一定的数据安全性前提下,提供更高的可用容量,从而节省整体投资并降低能源损耗。

未来还将通过宽条带化技术,支持36+4,146+4等大比例EC, 以达到更高的存储容量可用率。

  • 压缩/重删

根据数据类型智能适配压缩算法:

在视频分析等特定场景下,如果采取有损压缩不影响业务,选择有损压缩得到很高的压缩率。

基于全域的相似性去重:

散列算法设计为相似性哈希,可度量两个块之间的近似距离,从相似的数据块生成相同的散列。相似性哈希是一种语义标记,它们表明了不同的数据块之间的高度相关性。相似性去重,在图像存储等场景,依然能有较好的去重比例。

实现压缩/重删的同时保障性能以及稳定性是业界一直以来的难题,FOSS在自研架构层面就加入了压缩/重删层,通过不断优化,达成了压缩/重删对系统带来的性能影响非常小

04 发展展望

随着大数据、物联网、人工智能深度学习和数字化经济的爆炸式增长,个人和企业的数据比以往任何时候都多。使能这些数据,需要创新的高性能、大容量、低碳节能的存储产品和智能数据分析解决方案。高性能和绿色节能看似相斥,但通过存储分层方案,我们达成了完美的结合。

这篇关于【FOSS】新一代绿色节能对象存储的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/329326

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

API-环境对象

学习目标: 掌握环境对象 学习内容: 环境对象作用 环境对象: 指的是函数内部特殊的变量this,它代表着当前函数运行时所处的环境。 作用: 弄清楚this的指向,可以让我们代码更简洁。 函数的调用方式不同,this指代的对象也不同。【谁调用,this就是谁】是判断this指向的粗略规则。直接调用函数,其实相当于是window.函数,所以this指代window。

Python分解多重列表对象,isinstance实现

“”“待打印的字符串列表:['ft','bt',['ad',['bm','dz','rc'],'mzd']]分析可知,该列表内既有字符对象,又有列表对象(Python允许列表对象不一致)现将所有字符依次打印并组成新的列表”“”a=['ft','bt',['ad',['bm','dz','rc'],'mzd']]x=[]def func(y):for i in y:if isinst

mysql中存储过过程和游标的联合使用

1.SQL如下: DELIMITER //DROP PROCEDURE IF EXISTS PrintAllEmployeeNames5;CREATE PROCEDURE PrintAllEmployeeNames5()BEGINDECLARE error_count INT DEFAULT 0;DECLARE num INT ;DECLARE done INT DEFAULT

Java面试题:内存管理、类加载机制、对象生命周期及性能优化

1. 说一下 JVM 的主要组成部分及其作用? JVM包含两个子系统和两个组件:Class loader(类装载)、Execution engine(执行引擎)、Runtime data area(运行时数据区)、Native Interface(本地接口)。 Class loader(类装载):根据给定的全限定名类名(如:java.lang.Object)装载class文件到Runtim

Class 对象在执行引擎中的初始化过程

一个 class 文件被加载到内存中需要经过 3 大步:装载、链接、初始化。 装载 装载是指 Java 虚拟机查找 .class 文件并生成字节流,然后根据字节流创建 java.lang.Class 对象的过程。 链接 链接过程分为 3 步:验证、准备、解析。 验证: 初始化 这是 class 加载的最后一步,这一阶段是执行类构造器方法的过程,并真正初始化类变量。 1.文件格式检验:检

CloudStack那些事儿2 : 主存储与二级存储

CloudStack的管理的存储按用途分为主存储(Primary Storage)和二级存储(Secondary Storage),主存储用来存储虚拟机的卷,二级存储用来存放虚拟机的模板,ISO镜像和快照。值得一提的是,这里的主存储并不是指我们平时说的主存(RAM),它是Storage而不是Memory,可以理解为是硬盘,主存储和二级存储仅仅是存放的文件类型不同,使用的存储设备的类型是一样的。

添加一个对象到集合中时,集合里面存放的是对象的引用还是对象本身?

问题:添加一个对象到集合中时,集合里面存放的是对象的引用还是对象本身?   答:对象的引用。以下代码可以证明: Java代码   import java.util.ArrayList;   import java.util.List;      public class Test5 {       public static void main(String args[])

java中匿名对象分析

转自:xiazdong http://blog.csdn.net/xiazdong/article/details/6723101 一、两种实例化方式: String str = “abc”; String str = new String("abc"); 一个字符串就是String的匿名对象。 "hello".equals(str)    一