亚马逊云科技赋能敦煌网集团上云,云上新架构带来价值

本文主要是介绍亚马逊云科技赋能敦煌网集团上云,云上新架构带来价值,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

敦煌网成立于2004年,是领先的B2B跨境电子商务交易平台,敦煌网在品牌优势、技术优势、运营优势、用户优势四大维度上,已建立起竞争优势。随着跨境电商的日趋成熟,经营范围持续扩大、品类和渠道的增加,以及AIGC等行业新技术在运营提效场景下的广泛应用,对沉淀近20年的大数据进行深度挖掘、洞察和使用,给亚马逊云科技带来成本、算力、效率、安全的新挑战。

之前传统IDC大数据集群,维护成本高、无法实现弹性伸缩、计算存储耦合、算力瓶颈扩容周期长等问题越发严重,无法响应业务快速发展。

 

预期上云实现目标

● 智能湖仓架构

建设智能湖仓架构,将数据的采集、传输、存储、分析、应用全流程各环节无缝衔接,实现数据的集中存储和管理,提高数据的流转效率、数据质量、可靠性和安全性。对数据进行深度挖掘、智能分层和热力分析,提高数据的价值和利用率。

● 精细化运营成本管控

建立云资源的精细化运营和成本管控制度,提高资源利用率并降低成本。实现资源随业务灵活扩缩,提高业务的灵活性和响应速度。利用云原生的智能分层、自动化管理和运维能力,提高运维效率和质量。

● 一站式数据平台底座

打造集数据集成、数据开发、数据资产管理、数据服务等一站式大数据平台,实现“快、准、全、稳”的数仓体系,达到数据驱动决策,算法增长业务的目标。平台提供数据可视化和报表分析工具,帮助业务人员更好地理解和利用数据,提高业务决策的准确性和效率。

 

数据架构及技术方案

敦煌大数据的技术组件及架构(IDC)

1c9da7311f134bd38605f6ecf417d7f7.png

 

IDC大数据环境基于CDH、大数据开源生态组件、商业及自研工具构建。

数据源:包含上百个MySQL、Oracle以及NoSQL数据库实例,数万张源表(分库分表),数十TB数据。

数据缓冲区:每天数十亿条数据库增量数据,用户行为日志数据实时发送到Kafka集群,保证了数据高可用的同时,满足了离线和实时大规模数据分析处理的需求。

离线计算和实时计算集群:使用CDH6.x搭建大数据集群,借助于Cloudera Manager可方便地管理和部署Hadoop集群,并进行可视化监控和故障诊断。提供稳定可靠的离线、实时的计算引擎服务。

OLAP引擎:按不同应用场景需求配置了ElasticSearch、ClickHouse、StarRocks查询引擎提供买卖家、业务运营的在线查询服务。

业务应用:常用的报表及可视化工具:Hue、Tableau、BO,自研的EOS系统和对接服务化接口等业务应用。

数据安全:集成了Kerberos+Sentry+Ldap提供统一用户认证与鉴权,保障了数据安全。其中,Kerberos提供了身份验证协议的基础,Sentry提供了细粒度的授权控制,LDAP则提供了用户和组信息的管理功能。这些技术的结合极大提高大数据集群的安全性和管理效率。

数据开发平台:亚马逊云科技的数据开发平台采用了开源和自研技术相结合的方案。其中,任务调度部分采用DolphinScheduler实现,数据集成部分在DataX基础上进行二次开发,实现了可视化配置。此外,亚马逊云科技还注重数据血缘、元数据以及生命周期管理等方面,专门进行了针对性的研发。

 

云上新架构能够带来的价值

● 弹性伸缩:基于亚马逊云科技的EMR存算分离架构,在计算层可以根据数据分析任务去灵活调度不同的算力,支持分钟级别的计算实例弹缩,解决了IDC资源从采购到部署上线需要的漫长时间和提前预制算力可能产生的资源浪费。

● 性能提升:Amazon EMR上Spark Runtime性能相比开源Spark提升1.7~2倍左右,相同的资源使用下,可以更快的完成作业的执行。Presto也做了Runtime的优化,性能相比OSS快2.7倍左右,接入OLAP的引擎做交互式查询分析,也会从中受益。

● 成本节省:Amazon EMR可以根据计算需求变化灵活扩缩集群调整集群,在工作负载高峰时增加实例,在工作负载高峰过后移除实例。Amazon EMR还提供了运行多个实例组的选项,可以在一个组中使用按需实例来保障处理能力,同时在另一个组中使用竞价型实例来加快任务完成速度并降低成本,可以利用混合多种实例类型以充分利用某种竞价型实例类型的定价优势。应用S3的智能分层去自动化管理数据生命周期,在不影响数据读写性能的同时相比IDC大幅降低存储成本。

● 开发效率:Amazon EMR是全托管的云端数据平台,支持常驻、瞬态集群模式去分别适配每天的常规离线任务、临时数据分析和Ad-Hoc的任务,支持通过控制台界面或者API快速构建集群的能力,可以很方便和现有的大数据平台做集成,避免了传统自建集群日常维护的工作量,让大数据团队可以把更多的时间投入到技术探索中。

● 平台化数据底座:应用亚马逊云科技的智能湖仓架构,提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。

这篇关于亚马逊云科技赋能敦煌网集团上云,云上新架构带来价值的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/453604

相关文章

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

利用命令模式构建高效的手游后端架构

在现代手游开发中,后端架构的设计对于支持高并发、快速迭代和复杂游戏逻辑至关重要。命令模式作为一种行为设计模式,可以有效地解耦请求的发起者与接收者,提升系统的可维护性和扩展性。本文将深入探讨如何利用命令模式构建一个强大且灵活的手游后端架构。 1. 命令模式的概念与优势 命令模式通过将请求封装为对象,使得请求的发起者和接收者之间的耦合度降低。这种模式的主要优势包括: 解耦请求发起者与处理者

创业者该如何设计公司的股权架构

本文来自七八点联合IT橘子和车库咖啡的一系列关于设计公司股权结构的讲座。 主讲人何德文: 在公司发展的不同阶段,创业者都会面临公司股权架构设计问题: 1.合伙人合伙创业第一天,就会面临股权架构设计问题(合伙人股权设计); 2.公司早期要引入天使资金,会面临股权架构设计问题(天使融资); 3.公司有三五十号人,要激励中层管理与重要技术人员和公司长期走下去,会面临股权架构设计问题(员工股权激

【系统架构设计师】黑板架构详解

黑板架构(Blackboard Architecture)是一种软件架构模式,它模仿了多个专家系统协作解决问题的场景。在这种架构中,“黑板”作为一个中央知识库,存储了问题的当前状态以及所有的解决方案和部分解决方案。黑板架构特别适合于解决那些没有确定算法、需要多个知识源(或称为“专家”)共同作用才能解决的复杂问题。 一、黑板架构的组成 黑板架构主要由以下几个部分组成: 黑板(Blackboa

Java后端微服务架构下的API限流策略:Guava RateLimiter

Java后端微服务架构下的API限流策略:Guava RateLimiter 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在微服务架构中,API限流是保护服务不受过度使用和拒绝服务攻击的重要手段。Guava RateLimiter是Google开源的Java库中的一个组件,提供了简单易用的限流功能。 API限流概述 API限流通过控制请求的速率来防止

Arch - 演进中的架构

文章目录 Pre原始分布式时代1. 背景与起源2. 分布式系统的初步探索3. 分布式计算环境(DCE)4. 技术挑战与困境5. 原始分布式时代的失败与教训6. 未来展望 单体时代优势缺陷单体架构与微服务架构的关系总结 SOA时代1. SOA架构及其背景1. 烟囱式架构(Information Silo Architecture)2. [微内核架构](https://www.oreilly.c

新一代车载(E/E)架构下的中央计算载体---HPC软件架构简介

老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。 时间不知不觉中,快要来到夏末秋初。一年又过去了一大半,成