在个人电脑用单块 GPU 带动180亿参数 GPT,热门开源项目再添新特性

本文主要是介绍在个人电脑用单块 GPU 带动180亿参数 GPT,热门开源项目再添新特性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

提到训练AI大模型,总能让人想起动辄几百上千块GPU、天价训练费用、只有几家大厂才玩得起,普通AI玩家看着铺天盖地的大模型新闻只能默默流泪~

现在,仅有一块GPU的个人PC也可以训练高达180亿参数GPT;普通的笔记本电脑,也能训练十几亿参数的模型,相比现有主流方案,可提升参数容量十余倍

如此显著的提升来自Colossal-AI,一个通用AI大模型高效训练系统。最重要的是,它完全开源,仅需极少量修改,即可让现有深度学习项目在单张消费级显卡上使用大得多的模型进行训练,每个人都可以在家训练AI大模型!尤其是大幅度降低了AI大模型微调和推理等下游任务和应用部署的门槛

Colossal-AI还可将现有项目便捷扩展到大规模计算集群,使用高效并行技术进一步加速。

开源地址:

https://github.com/hpcaitech/ColossalAI

7b5643ad8d54a7783f97182f98fc5ec6.png

巨头角力,争炼AI大模型

8492b52c368cfc270eb5151970c7de57.png

从2018年谷歌提出的3亿参数BERT起,大模型记录在短短几年时间内被不断刷新,OpenAI 1750亿参数的GPT-3,微软和英伟达联手发布的5300亿参数MT-NLG ......

稠密单体模型已达千亿参数,而稀疏混合模型,如谷歌2021年发布的Switch Transformer,更是将参数量推至万亿级别。

然而,从头训练如此之大的模型费用极高,通常需要同时使用数百甚至上千张NVIDIA A100等专业高性能计算GPU,使用专用的InfiniBand高速网络互联的超级计算机集群,单次训练成本可达千万美元。

543e7279c7edbf9f0c6c71a4b697ab5c.png

使用单张消费级显卡训练AI大模型

对于在校学生和个人开发者等普通AI玩家来说,显然无法承担上述如此高昂的费用,最方便获得的计算资源还是个人电脑中的英伟达RTX系列消费级GPU。

为了解放AI生产力,让大模型普惠到更多开发人员,真正实现"多快好省"的使用AI大模型,Colossal-AI仅需几行代码,便可实现提升单卡训练模型容量十几倍的提升

2fbdba8b31b86bc34f1e3fba4ed4357e.png

在各类型硬件上,Colossal-AI的表现均远超原生PyTorch和主流的微软DeepSpeed方案。

对于大模型的代表GPT,使用Colossal-AI在搭载RTX 2060 6GB的普通游戏笔记本上,也足以训练高达15亿参数模型;对于搭载RTX3090 24GB的个人电脑,更是可以直接训练180亿参数的模型;对于Tesla V100等专业计算卡,Colossal-AI也能显示出显著改善。

87e865c6d65e5c4c05c00851746e223b.png

Colossal-AI还成功复现了谷歌的最新研究成果PaLM (Pathways Language Model),在各类硬件上也体现出卓越的性能提升,而微软DeepSpeed尚不支持PaLM模型。

ffec112f01f7316d08947d81047b0cbb.png

af05d326ae59d85cf7da25e89fccdf98.png

关键技术:异构训练再升级

使用单张消费级显卡训练AI大模型的最大困难在于显存容量极其有限,严重限制了可容纳的模型参数量。微软DeepSpeed的提出ZeRO-offload方法,尝试将模型切分,利用更大容量、更低成本的内存。目前已经出现了多个基于DeepSpeed的魔改版本。但如下图左边所示,当 GPU 内存不足以满足其相应的模型数据要求时,即使当时CPU上仍有可用内存,系统也会崩溃。

970778da034c870cd069359a4b05d46e.png

不同于基于DeepSpeed的各种魔改方案,Colossal-AI团队从头搭建了如ZeRO等核心关键技术,并针对DeepSpeed在CPU和GPU内存之间仅使用静态划分模型数据、对不同训练配置使用固定内存布局等问题做了诸多改进,进一步挖掘高效的GPU与CPU内存高效协同方案,毕竟内存条可比大显存的高端显卡便宜太多~

Colossal-AI设计的Gemini,就像双子星一样,高效管理和利用GPU与CPU的异构内存,让张量在训练过程中动态分布在CPU-GPU的存储空间内,从而让模型训练突破GPU的内存墙。

我们利用深度学习网络训练过程的迭代特性,按迭代次数将训练分为warmup和non-warmup两个阶段。在初期warmup阶段,监测内存信息;在non-warmup阶段利用已收集的信息来高效移动张量,以达到最小化CPU-GPU数据移动的目的。

439fb64452295426b4c479df94106357.png

听起来容易,实现起来却并不简单。非模型的内存使用量其实难以获取,因为非模型数据的生存周期并不归用户管理,现有的深度学习框架没有暴露非模型数据的追踪接口给用户。其次,CUDA context等非框架开销也需要统计。

Colossal-AI通过采样方式在warmup阶段获得CPU和GPU内存的使用情况。非模型数据的使用可以通过两个统计时刻之间系统最大内存使用-模型内存使用获得。模型的内存使用情况可以通过查询内存管理器得知,如下图黑色实线所示。

792d5e8ceafce2415cba151b832876fd.png

而所有模型数据张量则交给内存管理器管理,每个张量标记一个状态信息,包括HOLD,COMPUTE,FREE等。并根据动态查询到的内存使用情况,不断动态转换张量状态,调整张量位置,最终实现对GPU显存和CPU内存的高效利用,实现在硬件极其有限的情况下,最大化模型容量和平衡训练速度,对于AI民主化和低成本微调大模型下游任务等意义巨大。

971bfab672a9d093c29178dd5d112c6f.png

更进一步:便捷高效并行扩展

并行分布式技术是进一步加速模型训练的重要手段,想要以最短时间训练当今世界最大最前沿的AI模型,仍离不开高效的分布式并行扩展。针对现有方案并行维度有限、效率不高、通用性差、部署困难、缺乏维护等痛点,Colossal-AI通过高效多维并行和异构并行等技术,让用户仅需极少量修改,即可高效快速部署AI大模型训练。

例如对于GPT-3这样的超大AI模型,相比英伟达方案,Colossal-AI仅需一半的计算资源,即可启动训练;若使用相同计算资源,则能提速11%,可降低GPT-3训练成本超百万美元。

6e50706ef78af942197ea119913820c5.png

对于蛋白质结构预测应用AlphaFold,基于Colossal-AI的加速方案的FastFold,成功超越谷歌和哥伦比亚大学的方案,将AlphaFold训练时间从11天减少到67小时,且总成本更低,在长序列推理中也实现9.3~11.6倍的速度提升。

69edc6e25fcfe2c8ce892be9d904b231.png

Colossal-AI注重开源社区建设,提供中文教程,开放用户社群及论坛,对于用户反馈进行高效交流与迭代更新,不断添加PaLM、AlphaFold等前沿应用。

自然开源以来,Colossal-AI已经多次登顶GitHub热榜Python方向世界第一,与众多已有数万star的明星开源项目一起受到海内外关注!

6bb372eb2154e9a710380d73e65659cc.png

项目团队

潞晨技术团队的核心成员均来自美国加州大学伯克利分校,斯坦福大学,清华大学,北京大学,新加坡国立大学,新加坡南洋理工大学等国内外知名高校;拥有Google Brain、IBM、Intel、 Microsoft、NVIDIA等知名厂商工作经历。公司成立即获得创新工场、真格基金等多家顶尖VC机构种子轮投资。

3550bdbb92e4e9f70ab5da5322c1365f.png

潞晨科技创始人尤洋教授:加州大学伯克利分校博士、IPDPS/ICPP最佳论文、ACM/IEEE George Michael HPC Fellowship、福布斯30岁以下精英(亚洲 2021)、IEEE-CS超算杰出新人奖、UC伯克利EECS Lotfi A. Zadeh优秀毕业生奖。

8f8655709fd8e18d45fd59a04f9167fa.png

潞晨CSO Prof. James Demmel:加州大学伯克利分校杰出教授、ACM/IEEE Fellow,美国科学院、工程院、艺术与科学院三院院士

传送门

项目地址:

https://github.com/hpcaitech/ColossalAI

参考链接:

  • https://medium.com/@hpcaitech/train-18-billion-parameter-gpt-models-with-a-single-gpu-on-your-personal-computer-8793d08332dc

这篇关于在个人电脑用单块 GPU 带动180亿参数 GPT,热门开源项目再添新特性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/574931

相关文章

SpringBoot请求参数接收控制指南分享

《SpringBoot请求参数接收控制指南分享》:本文主要介绍SpringBoot请求参数接收控制指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring Boot 请求参数接收控制指南1. 概述2. 有注解时参数接收方式对比3. 无注解时接收参数默认位置

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

springboot项目如何开启https服务

《springboot项目如何开启https服务》:本文主要介绍springboot项目如何开启https服务方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录springboot项目开启https服务1. 生成SSL证书密钥库使用keytool生成自签名证书将

将Java项目提交到云服务器的流程步骤

《将Java项目提交到云服务器的流程步骤》所谓将项目提交到云服务器即将你的项目打成一个jar包然后提交到云服务器即可,因此我们需要准备服务器环境为:Linux+JDK+MariDB(MySQL)+Gi... 目录1. 安装 jdk1.1 查看 jdk 版本1.2 下载 jdk2. 安装 mariadb(my

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》:本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

SpringMVC获取请求参数的方法

《SpringMVC获取请求参数的方法》:本文主要介绍SpringMVC获取请求参数的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下... 目录1、通过ServletAPI获取2、通过控制器方法的形参获取请求参数3、@RequestParam4、@

springboot项目中常用的工具类和api详解

《springboot项目中常用的工具类和api详解》在SpringBoot项目中,开发者通常会依赖一些工具类和API来简化开发、提高效率,以下是一些常用的工具类及其典型应用场景,涵盖Spring原生... 目录1. Spring Framework 自带工具类(1) StringUtils(2) Coll