本文主要是介绍浅谈VAST DATA公司,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
浅谈VAST DATA公司
- 1. 概述
- 2. White Paper
- 2.1 Why Universal Storage
- 2.2 Defining Universal Storage
- 2.3 New Tech Lay A New Storage Fondation
- 2.4 DASE(DisAggregated Shared Everything)
导师让了解一下VAST DATA这家企业,不知道要干嘛,看了一下它的白皮书,很多东西还是不太了解。不过总体架构还是能够基本理解,这里简单记录一下。
1. 概述
-
理念:全闪存消灭机械硬盘
-
思路:
Universal Storage
避免存储分层,采用最便宜的QLC介质(四层存储单元,Quad-Level Cell),利用独特的数据保护和缩减技术,成本可以做到硬盘的水平 -
架构:控制器采用容器技术部署,全部都是无状态的,可以扩充到1000个节点,后端通过NVMe-oF网状连接闪存框,闪存框里面有少量的SCM做写Cache,后面插大量的QLC盘。这种架构的好处就是容量和性能可以单独扩展,有分布式存储的好处,但是和一般的SDS不同的就是,控制框可以看到所有的SSD盘,这得依赖NVMe-oF。
-
关键技术:回答以下问题
-
QLC的写寿命那么差,如何支持生产系统?
寿命方面:系统通过NVMe-oF可以看到所有QLC Flash,做全局磨损均衡。
保护方面:使用长条带,分组生成额外冗余位减少坏盘重构时间。在SCM里面做快速构建。
-
还有,QLC的介质虽然可以采用消费级颗粒,但单位成本还是要比硬盘高啊?
长条带实现高达98%的得盘率
-
如何在数据缩减上下功夫,使得有效成本低于硬盘?
传统重删和压缩:传统重删一般是KB粒度,不能基于Byte做重删;传统压缩基于Byte,但不是全局的
VAST提出的数据缩减方案:全局去重、算指纹,相似指纹做压缩。
-
2. White Paper
2.1 Why Universal Storage
- 用户需要把数据拷贝到相应的存储层去,用户不友好;
- 自动化数据管理框架也不能简化“Where is my data ?”这个问题,频繁地移动数据对资源、性能都是一种损耗;
- 数据全局化才更好,特别是对于AI训练来说,而不是局限在某个Flash层上;
2.2 Defining Universal Storage
- 速度快,可以达到传统或现代应用需求
- 可拓展
- 成本低
- 易访问
2.3 New Tech Lay A New Storage Fondation
- Hyperscal Flash
-
Stateless Containers
无状态容器通过NVMe-oF网络连接到存储设备上,使得① 部署方便;② 可靠性更强;
-
Storage Class Memory(SCM,3D-XPoint)
SCM以其低写入延迟、较长的持久能力,而被作为写缓冲、全局元数据存储的存储介质,优势在于:
- 写延时优化:在SCM种可以做数据缩减、全局磨损均衡,避免高QLC写入延迟
- 写寿命优化:SCM具有长期存储能力,避免temp数据对QLC造成不必要的磨损
- 数据保护性能优化:合并写入,一次性写到QLC中,避免QLC
- 数据缩减索引优化:作为元数据存储容器,提供全局压缩字典,避免将索引数据拷贝到DRAM中
-
NVMe-over-Fabric(NVMe-oF)
高速,可实现存算分离
为什么要实现存算分离?因为存算一体不容易扩展,不灵活,且不容易做到全局数据缩减,以及数据保护(RAID)。
2.4 DASE(DisAggregated Shared Everything)
DASE结构是VAST的架构,它依靠NVMe-oF连接实现存算分离,如上图。这是一种全局结构,其各个技术点在前文已基本描述,不再赘述。
这篇关于浅谈VAST DATA公司的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!