给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度

2024-03-12 02:59

本文主要是介绍给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

dbf3f7cf7651b9fc4ad8219b10e13d78.gif


01

引言

Aliware

基于 K8s 的统一调度是阿里集团的核心项目,随着2021年双十一落下帷幕,这个历时一年多,汇集了蚂蚁、电商、搜索、计算平台等几大调度团队的联合项目在生产场景得到了终极验证。

作为统一调度项目的核心团队,伏羲成功地将 MaxCompute 弹内几万台机器、数百万核计算资源接入了统一调度系统,全程对业务和用户完全无感,无一故障,无一破线,完美实现了“飞行中更换引擎”的目标。统一调度在 MaxCompute 场景的规模化落地,为今年丝般顺滑地支撑双十一洪峰提供了强力保障。通过统一调度项目,伏羲也实现了架构上的再次升级,全面融入 K8s 统一调度架构,让 K8s 生态兼具在线服务和离线大数据的调度能力。

过去几年,阿里技术人一直在探索如何在一个资源池上让不同业务形态的应用在时空上“削峰填谷”,以提升利用率、降低成本、极致资源弹性;另一方面,飞天伏羲在长期的架构演进中,也一直在寻求如何兼容开源生态,更好地为开源引擎提供资源调度服务。基于 K8s 的统一调度,是阿里集团多年混部方案自然演进的结果,也是伏羲拥抱开源的终极形态。本文将从集团混部项目开始谈起,介绍基于 K8s 的统一调度方案,以及 MaxCompute 迁移统一调度的过程。

02

始于混部,终于统一调度

Aliware

阿里集团需要一个庞大的资源系统支撑线上丰富的业务形态,搜索、电商、大数据、数据库等,我们观察到电商纯在线集群长期处于低水位的状态,常态利用率在 10%以下,而以 MaxCompte 为代表的大数据离线集群长期处于高水位,平均利用率 70-80%。

以集团 10 万台(2017 年数字)在线机器为例,通过混部,理论上可以将机器利用率由 10%提升到 45%,这意味着每年可以额外提供 7.8 万台同等计算能力的机器,这是一笔巨大的收益。但混部的挑战也是巨大的,其中最核心的挑战是如何提供一套资源共享机制(全局、单机),在保障各应用 SLA 的前提下,达成集群利用率提升的目标。

01

基于资源静态划分的混部

集团混部项目从 2015 年 9 月正式立项,在经历了初期的技术栈整合和隔离技术的探索后,2017 年正式进入核心生产。当时 0 层作为资源展板,按机器粒度划分在线和离线资源的比例,管理机器的混部角色和状态,而在线离线两个一层调度器基于 0 层分配的资源进行各自业务场景的调度。2017 年双十一,电商和蚂蚁两个混部场景均平稳完成了大促的目标,但也有明显缺点:

1)离线作业的资源使用没有保障,可能被在线应用无条件抢占;

2)在线离线调度器静态划分资源,缺乏灵活性;

3)大促期间,离线全部降级,在更大规模场景下,很难保障离线核心业务的稳定性。

02

混部的进阶:规模化混部

2018 年年初,集团调度系统要全面提升混部能力,将电商混部扩大到万台规模,并全力保障离线作业的运行质量。为此,混部项目提出了资源优先级的概念,通过资源优先级划分,使离线的高优先级作业(Latency Critical)

这篇关于给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/799941

相关文章

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3