霸榜GitHub热门第一多日后,Colossal-AI正式版发布

2024-01-14 07:30

本文主要是介绍霸榜GitHub热门第一多日后,Colossal-AI正式版发布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大规模并行AI训练系统Colossal-AI,旨在作为深度学习框架的内核,帮助用户便捷实现最大化提升AI部署效率,同时最小化部署成本。

45725c62c0a8ba207261711c7b4f87e3.png

开源地址:https://github.com/hpcaitech/ColossalAI

Colossal-AI一经开源便受到广泛关注,连续多日登顶GitHub热榜Python方向世界第一,与众多已有数万star的明星开源项目一起受到海内外关注!

经过开发者们的不断努力,Colossal-AI在数月的密集测试后迎来正式版!此版本由300多次commits组成。

511ea1bf26f58ed33623f70bcb8c08e9.png

本次正式版更新重点优化了分布式训练性能及开发者的易用性,主要亮点包括:

  • 重构ZeRO以改善性能和易用性;

  • 添加细粒度Profiler TensorBoard监控插件,监测训练过程中内存、网络等状态;

  • 更灵活的checkpoint策略,可扩展的pipeline模块;

  • 开源蛋白质预测FastFold等丰富行业解决方案;

  • 添加中文教程,MOE、BERT等实例,开放用户社群及论坛。

专业助力大模型训练

近年来,随着深度学习的兴起及大模型横扫各大性能榜单,前沿AI模型的大小在短短几年内便已增大万倍,远超硬件数倍的缓慢增长。前沿AI大模型不仅远超单个GPU的容纳能力,所需算力也往往需要单个GPU运行数百甚至上千年。

因此,如何提升单个GPU的容纳能力,如何高效利用分布式技术,联合多个GPU低成本实现并行训练加速已成为AI大模型的关键痛点。

6d576688cafbf3a3e785e67d142f4d89.png

针对现有方案并行维度有限、效率不高、通用性差、部署困难、缺乏维护等痛点,Colossal-AI通过高效多维并行、显存优化、大规模优化库、细粒度监测等方式,让用户仅需极少量修改,即可高效快速部署AI大模型训练。

多维并行

相比现有方案中并行维度仅包括数据并行、一维张量并行、流水并行三种方案,Colossal-AI进一步提供2/2.5/3维张量并行和序列并行,以及便捷的多维混合并行解决方案。 

35376a3a7f9e526d08c4dc76747de2e0.png

ViT张量并行为64时,可提升14倍批大小和5倍训练速度

其中,高维张量并行能极大减轻显存消耗,提升通信效率,使得计算资源利用更加高效。

7acb3758af6d7ce7b76b5865c4ff7519.png

序列并行帮助BERT提升2倍训练速度,或1.5倍序列长度

而序列并行针对大图片、视频、长文本、长时间医疗监测等数据,可以帮助突破原有机器能力限制,直接处理长序列数据。

显存优化

Colossal-AI综合了多重显存优化技术,包含多维并行,ZeRO冗余内存消除,CPU offload,Gradient Checkpoint,自动混合精度(AMP)等前沿技术,最大限度帮助用户避免显存瓶颈,降低训练的硬件需求。

5c53719519a4131a3c82e6af9246022d.png

GPT-2使用Colossal-AI,同样硬件下提升24倍可训练模型大小,或3倍训练速度

灵活易用

Colossal-AI接口设计与PyTorch风格保持一致,降低学习和使用成本,仅需极少量修改,便可将已有项目与Colossal-AI结合,便捷扩展至大规模并行。此外,该系统还保持了优秀的扩展性,便于根据需求添加新功能,与已有功能模块兼容。

细粒度监测:细粒度Profiler TensorBoard插件,相较于PyTorch仅能以iteration为单位进行记录训练过程,Colossal-AI能够监测iteration内的网络、通信、内存等状态,方便开发者进行精确分析和调试,提高开发效率。

大规模优化库:Colossal-AI提供大规模并行优化器LAMB、LARS等,首次将训练batch size扩展到65536。Colossal-AI还与PyTorch自带各类optimizer兼容,并不断探索添加最新前沿优化技术,满足各类模型需求。

丰富的行业解决方案

Colossal-AI目前已与自动驾驶云计算零售医药芯片等行业知名厂商达成合作,与AI领域顶级开源组织Hugging Face等建立合作。

蛋白质结构预测加速方案:FastFold

AlphaFold因强大的AI预测蛋白质结构能力被Science和Nature评选为2021年十大科学突破之首,但存在训练时间长、成本高等问题。

15507b5a3c4fb6eda4ec7973802a70df.png

图片来源:https://arxiv.org/pdf/2203.00854.pdf

基于Colossal-AI的加速方案FastFold,将GPU优化和大模型训练技术引入AlphaFold的训练和推理,成功超越谷歌哥伦比亚大学的方案,将AlphaFold训练时间从11天减少到67小时,且总成本更低,在长序列推理中也实现9.3~11.6倍的速度提升。

f72c163b40c5e4a45c71b1d08b31683d.png

长序列推理性能对比

半数GPU训练GPT-3

a411e8aa5e9f46068f2e0c47ac55aec0.png

对于超大AI模型,如GPT-3,相比英伟达方案,Colossal-AI仅需一半的计算资源,即可启动训练;若使用相同计算资源,则能提速11%,可降低GPT-3训练成本超百万美元

Colossal-AI注重开源社区建设,提供中文教程,开放用户社群及论坛,对于用户反馈进行高效交流与迭代更新,不断添加MoE等前沿应用。

项目团队

潞晨技术团队的核心成员均来自美国加州大学伯克利分校,斯坦福大学,清华大学,北京大学,新加坡国立大学,新加坡南洋理工大学等国内外知名高校;拥有Google Brain、IBM、Intel、 Microsoft、NVIDIA等知名厂商工作经历。公司成立即获得创新工场、真格基金等多家顶尖VC机构种子轮投资。

f98993bb7867e8f18d24ac8e69ad8c35.png

潞晨科技创始人尤洋教授:加州大学伯克利分校博士、IPDPS/ICPP最佳论文、ACM/IEEE George Michael HPC Fellowship、福布斯30岁以下精英(亚洲 2021)、IEEE-CS超算杰出新人奖、UC伯克利EECS Lotfi A. Zadeh优秀毕业生奖

e384b25983d51ed64f1a87dbbd604d37.png

潞晨CSO Prof. James Demmel:加州大学伯克利分校杰出教授、ACM/IEEE Fellow,美国科学院、工程院、艺术与科学院三院院士

传送门

论文地址:
https://arxiv.org/abs/2110.14883

项目地址:
https://github.com/hpcaitech/ColossalAI

文档地址:
https://www.colossalai.org/

*本文观点参考链接:

https://medium.com/@hpcaitech/5-must-follow-features-that-are-seeing-colossal-ais-success-2d5361e27e4b

—  —

「智能汽车」交流群招募中!

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群,与行业大咖交流、切磋,不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

56c1a5bf5026fda7f3e7f283144b261f.png

这篇关于霸榜GitHub热门第一多日后,Colossal-AI正式版发布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/604383

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU