【AI基础设施】智算场景的资源管理系统与未来展望

2023-12-18 12:45

本文主要是介绍【AI基础设施】智算场景的资源管理系统与未来展望,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

高性能计算与智算场景

首先澄清两个概念,高性能计算与智算场景,高性能计算主要是面向天气预测、生物计算、材料计算等场景,而最近几年很火的智算主要是面向AI场景的计算,如语音识别、图像识别、自动驾驶等场景,我们可以看到他们有一个共同的基础组件能力,叫分布式资源管理与任务调度执行服务,在HPC场景用了最多的就是Slurm和LSF,在大数据场景用的比较多的就是Yarn和K8s,但未来,智算场景,甚至HPC、大数据场景(数据湖)也会统一到K8s

HPC、大数据、AI批量计算的发展历程和趋势

云原生批量计算面临的关键挑战

而K8s的原生调度不能解决作业管理缺失、调度策略局限、领域计算框架支持不足、资源规划复用、异构计算支持不足等问题,而Yarn本身可以解决部分问题,但在容器的支持上还需要完善,从未来来看,Yarn与K8s的功能会同质化越来越严重。

Volcano总体架构和优势

主要从资源利用率,智能混合调度,这个功能可以用在AI场景的训推一体上,来提升整体的资源使用效率,但需要结合GPU的虚拟化技术,除非像70B以上的大模型,都是在同一类似的A800卡上做训练和推理

未来展望

智算调度未来可能主要向几个方面发展

1. 多场景混合调度:包括在线、离线任务混合;CPU与GPU任务混合;GPU长任务(推理)与短任务混合等,提高整体资源的利用率,降低计算所带来的成本消耗

2. 智能任务调度和优化:针对线上任务的执行数据学习,通过机器学习算法来进行更加智能的调度和对任务资源利用效率的优化,以提升任务的调度效率和资源利用率

3. 跨中心的资源管理和调度:未来数据处理、推理和训练资源很有可能在不同地域的不同中心,我们需要实现跨中心的资源管理和调度,来满足资源利用率的最优化

....(待补充)

智算平台是一个系统性的工程,除了资源管理外,还需要高性能RDMA网络(IB或者ROCE),高性能分布式存储(Lustre或GPFS等),构成整个智算平台的三驾马车。

这篇关于【AI基础设施】智算场景的资源管理系统与未来展望的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/508417

相关文章

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

CentOS系统Maven安装教程分享

《CentOS系统Maven安装教程分享》本文介绍了如何在CentOS系统中安装Maven,并提供了一个简单的实际应用案例,安装Maven需要先安装Java和设置环境变量,Maven可以自动管理项目的... 目录准备工作下载并安装Maven常见问题及解决方法实际应用案例总结Maven是一个流行的项目管理工具

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

JavaScript中的isTrusted属性及其应用场景详解

《JavaScript中的isTrusted属性及其应用场景详解》在现代Web开发中,JavaScript是构建交互式应用的核心语言,随着前端技术的不断发展,开发者需要处理越来越多的复杂场景,例如事件... 目录引言一、问题背景二、isTrusted 属性的来源与作用1. isTrusted 的定义2. 为

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

C#实现系统信息监控与获取功能

《C#实现系统信息监控与获取功能》在C#开发的众多应用场景中,获取系统信息以及监控用户操作有着广泛的用途,比如在系统性能优化工具中,需要实时读取CPU、GPU资源信息,本文将详细介绍如何使用C#来实现... 目录前言一、C# 监控键盘1. 原理与实现思路2. 代码实现二、读取 CPU、GPU 资源信息1.