杉岩数据CTO:对象存储将成为企业存储新标准

2024-02-26 17:59

本文主要是介绍杉岩数据CTO:对象存储将成为企业存储新标准,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

微博、微信、直播等互联网应用的风靡,带来了海量的图片、音频和视频文件,这些非结构化数据的容量、文件的数量已经超越了传统NAS存储的处理能力,因此各大互联网厂商根据自身特点发展出了适合业务需求的分布式存储架构,如:Google的GFS,亚马逊的AWS S3,以及FaceBook的Cassandra等等。特别是亚马逊2006年推出的AWS S3对象存储,其定义的S3接口已经逐渐成为非结构化数据存储的事实标准。

知名分析机构IDC的报告预测,到2020年非结构化存储数据量将达到410EB,相比2015年增长4倍,而对象存储占文件存储总容量的70%以上。报告显示,2015-2020年对象存储市场营收的年均复合增长率将达到8.7%。非结构化数据量的暴增及对象存储时代的到来,让企业用户越来越意识到对象存储技术的重要性,基于对象存储领域多年的实践经验,今天有幸和大家分享我的一些积累和见解。

图片描述
图:杉岩数据CTO 邱尚高

传统NAS存储制约业务的发展

“互联网+”趋势的推进以及各类智能终端的普及,非结构化数据呈现出爆发性增长,如:金融业务办理的开户视频、互联网金融行业的申请资料、保险行业的理赔资料、快递行业的电子快递单、安防行业的视频监控录像等。同时,为了满足政策合规性,部分行业监管要求长时间保存以供查询取证。

如今,这些传统企业的IT部门正在经历着互联网公司曾经遭遇的NAS无法解决的存储难题,主要体现在如下方面:NAS存储采用古老的文件系统技术,单个文件系统容量受限,超过容量后对IT运维将带来巨大挑战;NAS存储的目录文件系统采用B+树进行文件索引,当文件数量过多时,会严重影响访问性能;NAS设备过维保后,由于非结构化数据规模较大,在更换时需要花费大量时间,且数据迁移存在风险等等。

那么,相对于传统NAS文件存储而言,对象存储到底可以带来哪些颠覆性的技术优势,接下来和大家做一些简单分享。

对象存储将成为企业存储的新标准

分布式去中心架构,容量和性能扩展方便

对象存储普遍采用的是基于通用x86服务器+分布式对象存储软件的技术架构,对象存储软件将多台服务器通过以太网连接,构建成一个统一的存储资源池,可动态增加或删除服务器实现容量的调整,数据能够自动均衡,并且利用副本和纠删机制(类似于RAID5/6)实现数据的高可靠和高可用性。

传统NAS过维保后,需要将过保设备上的数据人工迁移到新购置的NAS上,文件数量较多的用户需要花1到2个月时间,运维人力消耗非常大。而采用如下图所示的分布式架构,可以动态移除旧设备,无需人工干预,业务也不受影响。

创新的索引技术,真正解决海量小文件问题

海量小文件的存储是工业界和学术界公认的难题,解决问题较为关键的技术点就是优化元数据管理,由于传统NAS采用B+树进行文件检索,当文件数量比较少的时候,B+树基本可以被缓存,性能还是不错的。但随着文件数量的增多,B+树占用空间非常大无法被缓存时,就会涉及到机械盘操作导致性能明显下降,如果层级较深,仅仅索引访问就会产生多次磁盘随机访问操作,严重影响文件的访问性能。

而对象存储普遍采用了分布式哈希查找算法(DHT),技术原理:在建立集群时,对象存储将整个存储空间划分成一个哈希环,每个磁盘负责哈希环中部分哈希分区的存储。当需要访问一个文件时,系统通过“目录/桶名+文件名”的哈希计算后,查询DHT表即可定位到具体磁盘进行文件访问。由于哈希环并不随文件数量的增加而增多,所以查找性能不会受到文件数量的影响。

超大容量单目录,满足业务生命周期存储需求

传统NAS存储采用文件系统技术,单个文件系统容量普遍在几十TB级。由于IT管理人员在业务上线前无法对规范容量和目录需求做出精准评估,对于某些产生数据量较大的业务系统来说,需要挂载多个文件系统目录,这会带来很多非增值的运维工作。

而对象存储采用扁平化的文件名唯一定位方式,单个目录或者存储空间能达到数十PB甚至数百PB级,可以满足业务系统整个生命周期的存储容量需求,无需挂载目录和调整业务系统,让IT人员更加关注业务价值本身。

更加适用于多数据中心容灾场景

高效的业务系统容灾方案是企业IT部门最为关注的焦点之一。对象存储在接口方面的技术改良,使其在多数据中心容灾方面支持得更加完善,大部分对象存储厂商都支持两个及以上的多数据中心容灾。传统NAS往往是主备模式的容灾,而对象存储普遍支持Active-Active模式的容灾,可实现本地数据中心应用的就近访问。这对于采用负载均衡模式数据中心的企业来说,是非常有价值的,可以提升每个数据中心业务系统的访问性能。

实现私有云和公有云间的数据流通

随着企业互联网业务的发展,越来越多的应用运行在智能终端和公有云平台上,而考虑到安全性和保密性,数据依然保存在企业内部。传统NAS的CIFS/NFS协议只能被企业内网访问,无法直接提供给外部网络。对象存储最早被应用在互联网和公有云场景,所以对象存储的访问协议(S3、SWIFT)都是基于HTTP标准协议,可支持内网和外网应用系统对存储的自由访问。

在安全性方面,数据采用AES进行加密传输,支持HTTPS保证传输链路安全。S3协议还定义了完整的多租户访问、文件粒度的授权访问等多种安全技术,保证了数据开放给外网访问的安全性。

关于应用对象存储技术的一些建议

匹配对象存储典型的应用场景

传统文件存储主要有两种使用场景:一种是在线编辑场景,如媒资行业的现编系统存储,另一种是非在线编辑场景,主要是满足归档和查询需求,不需要对文件内容进行修改。在实际应用中,非在线编辑场景占数据总容量的80%以上。对象存储接口能够完全满足非在线编辑场景的需求,因此在此类场景中用户可以完全替换掉传统NAS。为了让用户更好地匹配对象存储的关键应用场景,我们做了如下总结:

1)文件数量特别多,访问性能受到影响的场景。例如:银行的影像资料、保险的电子保单、快递的电子快递单等等,对象存储可以保证在这种场景下的访问性能。

2)数据存储量特别大,需要长期保存的场景。例如:金融行业的双录、医疗行业的影像资料、提供客服中心服务的语音资料等等,利用对象存储的弹性扩展能力以及超大容量目录,保证业务系统整个生命周期不需要做任何变更。

3)互联网业务的使用场景,例如:互联网金融相关业务,对象存储可以实现互联网应用对企业内部文件的安全访问,让数据在企业内部和互联网间高效流动。

4)多数据中心共享场景,例如:跨地域的文件共享、总部与分支机构文件的共享与归集等应用场景。

重视厂商的技术服务能力

虽然AWS S3协议已成为对象存储的事实标准,其数据访问接口相对传统文件系统访问接口更加简单。但由于S3接口相比NAS提供更加丰富的功能,包括:权限管理、租户管理、标签、外链、配额、多版本、生命周期、多数据中心策略等上百个API接口,如何充分利用好这些接口,帮助业务系统提高数据安全性、优化业务性能、优化存储管理、优化多数据中心访问方式和存储策略等方面,可能需要有对象存储部署经验的厂商来协助。

因此,我们建议在引入对象存储技术的同时,用户应该更多地关注厂商对于应用开发技术的服务能力,实现对象存储部署价值的最大化。

【关于杉岩数据】企业级软件定义存储(SDS)方案和服务提供商,“+存储”理念的倡导者和践行者,由来自世界500强企业的专业存储团队为技术班底组成。帮助企业级用户轻松应对IT向云迁移的存储挑战,为大数据时代的商业决策提供智能存储。

这篇关于杉岩数据CTO:对象存储将成为企业存储新标准的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/749689

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X