数据湖十年风雨路,云服务商缘何脱颖而出

2023-10-22 22:40

本文主要是介绍数据湖十年风雨路,云服务商缘何脱颖而出,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据湖,是一个并不新颖却越来越被用户看重的名词。

从2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始,数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间,既有开源厂商们提出的各种营销理念,也有传统存储厂商打造的各类解决方案,更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深入思考。

时至如今,数据湖虽然经历了各种各样的“挫折”,但是数据湖在数字化时代给用户带来的价值已经愈发清晰。而率先帮助用户走出数据湖价值落地之路的,不是开源厂商,也不是传统存储厂商,恰恰是以AWS为代表的云服务提供商们。

这背后有何缘由?这一切还得从数据湖的本质谈起。

数据湖的价值凸显

维基百科对于数据湖的定义是:“Data Lake是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据、非结构化数据以及二进制数据等。”

数据湖最大的价值在于可以帮助用户梳理清楚从数据存储、数据汇聚到数据挖掘这些过程。比如,相比于数据仓库对于数据协作有规则限制,数据湖对于数据写入没有限制,可以更容易的收集数据;数据湖可以汇聚来自各种数据源的数据,并进行数据拉通,从而消除数据孤岛的问题;而数据湖中存放着最原始的数据则更加有利于数据价值的挖掘。

千万不要小看数据湖所能完成的这些数据处理过程。这些都是用户们在数字化时代发挥数据价值所必不可少的基础。时至今日,数据其实已经成为数字化时代的一种最为重要的生产资料,数据正在加速重塑企业与组织的生产、经营、销售、服务等流程,就如AWS首席云计算企业战略顾问张侠所指出的:“在当今企业中,数据流就是企业的血液流,企业的数字化转型很重要的一个方向就是把数字化的资产好好利用起来。”

数据湖十年风雨路,AWS缘何脱颖而出

数据湖成为大势所趋

与此同时,数据湖在过去十年并不缺乏产品与解决方案,为何数据湖失败的案例依然不少,为何又是以AWS为代表的云服务提供商们率先走在数据湖解决方案落地的最前沿?

事实上,作为很早推动数据湖服务的公司,AWS的数据湖解决方案成功并不是偶然。首先,Amazon作为全球最大的互联网公司之一,其数据规模、数据复杂度、数据处理难度、数据价值挖掘在业界无出其右,由于背靠Amazon,AWS数据湖解决方案天然就得到了不断的历练,比如Amazon内部一个数据湖部署--Galaxy,就存储了超过50PB的数据量,每天进行着多达60万的数据分析任务。

其次,AWS数据湖在产品技术层面进行了持续的提升与完善,其产品组合的成熟度和丰富程度走在了业界的前列。举个例子,大部分数据湖解决方案都是基于开源Hadoop的,但之前Hadoop集群的计算和存储紧耦合架构,使得数据湖架构的扩展成本高、效率低;而AWS在构建数据湖解决方案时候,很重要的一个选择就是让计算与存储分离,在存储上采用S3对象存储服务,从而让数据湖解决方案可以更好地应用在用户业务领域。

另外,AWS作为云计算市场的龙头,其公有云的环境也有利于数据湖解决方案的部署,在过去十年中为多个不同行业、不同规模的用户提供相关的数据湖服务,积累了丰富的用户实践经验。

在产品、解决方案以及用户实践上的领先其实就是AWS在数据湖领域脱颖而出的秘诀所在。

十年之后,AWS描绘出数据湖全景图

从十年前的概念到如今被越来越多行业用户所认同和采用,数据湖如今不再只是一个名词,它更代表着一种进化,它是过去十年数字化驱动下,用户在数据层面的需求、技术、产品不断进化的一个缩影。

过去十年移动化、社交化带来了数据指数级增长、数据来源广泛化、数据类型多元化,而像5G、物联网、边缘计算的兴起,只会加剧数据应用的趋势,并且会让现代数据应用的复杂性进一步提升,这恰恰反映出用户过去十年对数据应用的需求不断驱动着数据湖走向落地。

在技术层面来看,云计算、大数据以及人工智能具备天然融合在一起的属性,云计算无疑是过去十年对整个IT产业界带来最大变革的技术,它的弹性、灵活为数据湖带来了坚实的基础;而人工智能在过去几年取得突破性的发展,使之成为驱动数据湖发展的最大驱动力之一。

而过去十年也是数据湖产品与解决方案不断走向成熟的十年。像AWS这样的供应商已经逐步打造出非常全面与完善的数据湖解决方案,可以涵盖从数据收集、汇聚到分析、应用、可视化等方方面面。“数据湖从2014年进入了发展的第二个阶段。以AWS为例,围绕数据湖相关的技术、产品已经基本成熟。”张侠如是说。

根据介绍,AWS数据湖平台包括了数据仓库、大数据处理、交互查询、运营分析、数据交换、可视化、实时分析、推荐、预测分析。事实上,AWS这种全面的数据湖生态完整覆盖了数据湖的数据收集、存储、分析、应用四个阶段,并且这些产品、工具以及服务彼此之间并不是孤立的,互相配合可以达到更加出色效果,快速、便捷地帮助用户构建起数据湖相关应用。

数据湖十年风雨路,AWS缘何脱颖而出

在AWS 数据湖平台中有很多非常出色的组件,可以帮助用户解决数据湖中典型的挑战。比如,Amazon EMR大数据处理组件,可以在AWS上轻松运行Spark、Hadoop、Hive等大数据分析。EMR解决了开源生态集群部署与维护升级繁杂的痛点,这对于用户快速应用数据湖开源产品与工具大有裨益,

而 Amazon Redshift是一款性能优秀、强大、使用简单、全托管的数据仓库服务,可以轻松进行大规模并行处理,支持TB级规模数据的扩展,可以通过Spectrum引起将查询扩展到Amazon S3,与数据湖集成可以进行EB级的数据湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用户喜欢的产品与服务。张侠认为:“数据湖在云计算时代得以快速发展,它发展到现在已经包含了所有的数据库、数据仓库等服务,是企业数据体系的基础。数据湖其实比国内流行的数据中台更加全面,任何想构建数据中台的企业其实都可以在AWS找到全面的解决方案。”

多款新品落地,AWS加速中国数据湖应用

在中国市场,各个行业用户对于数据湖也是经历了一个从认知到认可的过程。张侠坦言,当前中国市场的数据湖应用依然处于早期阶段,整个市场有着非常大的潜力。

中国数据湖市场之所以是一个重要且广阔的市场,无外乎三点:

首先,中国对于数字经济的重视程度超乎想象,从国家政策还是企业自身都对于发展数字经济有着广泛的共识,数字经济加速推动了各个行业的数字化进程。根据IDC《数据时代2025》白皮书预测,中国数据量预计在未来7年将每年平均增长30%,位居世界第一,随之而来的就是对于数据存储、汇聚、分析越来越多的需求。

其次,在经历了多年的“企业上云”之后,各行各业对于云计算的认知和认可已经形成,在企业加速上云这个过程中,数据湖作为与云计算天然紧密联系在一起的应用,其实已经具备了非常好的基础设施环境,用户在上云之后逐步采用数据湖服务也是顺势而为。

再次,中国市场在5G、人工智能、物联网等领域的步伐快速,尤其是5G商用所带来的云计算、通信、大数据、人工智能等多项技术走向融合,未来在各个行业中会催生出更多新的现代化数据应用场景,数据湖在这个过程中将会起到重要的支撑作用。

数据湖十年风雨路,AWS缘何脱颖而出

据悉,针对中国市场,AWS近期在中国两个区域陆续上线了多款重磅级的新产品与新服务,其中就包括AWS Glue和Amazon Athena两款跟数据湖相关的服务。张侠透露:“AWS中国之后会陆续上线数据湖相关的产品与服务。随着越来越多服务落地中国,中国区用户可以在短短几天之内完成数据湖的建立工作。”

例如,AWS Glue是数据湖应用中一款非常重要的服务,它可以帮助用户建立起无服务器架构的数据目录和ETL服务,自动发现数据并存储Schema,与AWS上运行的Aurora、RDS、Redshift、S3和数据库引擎天然集成,这将给用户在使用数据湖带来巨大好处。举个例子,用户之前想将数据导入Redshift云数据仓库,之前需要自己写ETL管道,非常不方便,如今有了AWS Glue能够快速完成数据的抽取、转换和加载。

“中国市场的确是到了该好好研究与使用数据湖的阶段了,尤其是5G、边缘计算应用上来之后,在数据层面更应该匹配走数据湖这条路。”张侠最后表示道。

总体而言,数据湖一晃已经走过了十年,从一个概念逐步走向落地。在这十年中,以AWS为代表云服务提供商们真是洞悉了用户在数据湖上的需求,并且围绕数据湖打造出来的一系列全面的产品体系,使得数据湖真正走出了一条价值之路。

十年意味着一个阶段的结束,也预示着下一个阶段的开启。数据湖在未来会有更大的舞台。

这篇关于数据湖十年风雨路,云服务商缘何脱颖而出的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/264049

相关文章

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)

SpringBoot整合Canal+RabbitMQ监听数据变更详解

《SpringBoot整合Canal+RabbitMQ监听数据变更详解》在现代分布式系统中,实时获取数据库的变更信息是一个常见的需求,本文将介绍SpringBoot如何通过整合Canal和Rabbit... 目录需求步骤环境搭建整合SpringBoot与Canal实现客户端Canal整合RabbitMQSp

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

Nacos集群数据同步方式

《Nacos集群数据同步方式》文章主要介绍了Nacos集群中服务注册信息的同步机制,涉及到负责节点和非负责节点之间的数据同步过程,以及DistroProtocol协议在同步中的应用... 目录引言负责节点(发起同步)DistroProtocolDistroSyncChangeTask获取同步数据getDis

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行