DeepSpeed Autotuning

2024-06-10 08:12
文章标签 deepspeed autotuning

本文主要是介绍DeepSpeed Autotuning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AutoTuning

用不同的系统参数试跑用户的模型训练,尝试不同的参数组合,给出每种参数组合的速度,供用户去选择较块的来进行真正的训练。

ZeRO optimization stages;micro-batch sizes;optimizer, scheduler, fp16等;

在DeepSpeed配置文件里,设定:

"autotuning": { "enabled": true }

如果想在batch size上进行枚举,设置:

"train_micro_batch_size_per_gpu": "auto"

fast-mode试跑(大概27分钟跑完),结果:(gas是gradient accumulation steps;tmbspg是train micro-batch-size per GPU)

tuning_spacenum_experimentsbest_metric_valbest_exp_name
z0459.0229z0_gas1_tmbspg2
z1587.3017z1_gas1_tmbspg3
z2377.8338z2_gas1_tmbspg3
z310z3_gas1_tmbspg3
global1387.3017z1_gas1_tmbspg3

这篇关于DeepSpeed Autotuning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047622

相关文章

k8s volcano + deepspeed多机训练 + RDMA ROCE+ 用户权限安全方案【建议收藏】

前提:nvidia、cuda、nvidia-fabricmanager等相关的组件已经在宿主机正确安装,如果没有安装可以参考我之前发的文章GPU A800 A100系列NVIDIA环境和PyTorch2.0基础环境配置【建议收藏】_a800多卡运行环境配置-CSDN博客文章浏览阅读1.1k次,点赞8次,收藏16次。Ant系列GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,

deepspeed win11 安装

目录 git地址: aio报错: 编译 报错 ops已存在: 修改拷贝代码: git地址: Bug Report: Issues Building DeepSpeed on Windows · Issue #5679 · microsoft/DeepSpeed · GitHub aio报错: setup.py 配置变量 os.environ['DISTUTILS_U

MixtralForCausalLM DeepSpeed Inference节约HOST内存【最新的方案】

MixtralForCausalLM DeepSpeed Inference节约HOST内存【最新的方案】 一.效果二.特别说明三.测试步骤1.创建Mixtral-8x7B配置文件(简化了)2.生成随机模型,运行cpu float32推理,输出结果3.加载模型,cuda 单卡推理4.DS 4 TP cuda 推理5.分别保存DS 4TP每个rank上engine.module的权值6.DS

DeepSpeed Mixture-of-Quantization (MoQ)

属于QAT (Quantization-Aware Training)的一种,训练阶段用量化。 特点是: 1. 从16-bit INT开始训练,逐渐减1bit,训练一些steps就减1bit,直至减至8bit INT; 2. (可选,不一定非用)多久减1bit,这个策略,使用模型参数的二阶特征来决定,每层独立的(同一时刻,每层的特征值们大小不一致,也就造成bit减少速度不一致,造成bit数目

DeepSpeed MoE

MoE概念 模型参数增加很多;计算量没有增加(gating+小FNN,比以前的大FNN计算量要小);收敛速度变快; 效果:PR-MoE > 普通MoE > DenseTransformer MoE模型,可视为Sparse Model,因为每次参与计算的是一部分参数; Expert并行,可以和其他并行方式,同时使用:  ep_size指定了MoE进程组大小,一个模型replica的所

DeepSpeed Profiling

DeepSpeed自带的Profiler -------------------------- DeepSpeed Flops Profiler --------------------------Profile Summary at step 10:Notations:data parallel size (dp_size), model parallel size(mp_size),

DeepSpeed Learning Rate Scheduler

Learning Rate Range Test (LRRT) 训练试跑,该lr scheduler从小到大增长lr,同时记录下validatin loss;人来观察在训练多少step之后,loss崩掉(diverge)了,进而为真正跑训练,挑选合适的lr区间; "scheduler": {"type": "LRRangeTest","params": {"lr_range_test_min_l

DeepSpeed Huggingface模型的自动Tensor并行

推理阶段。在后台,1. DeepSpeed会把运行高性能kernel(kernel injection),加快推理速度,这些对用户是透明的; 2. DeepSpeed会根据mp_size来将模型放置在多个GPU卡上,自动模型并行; import osimport torchimport transformersimport deepspeedlocal_rank = int(os.get

DeepSpeed入门

pip install deepspeed 支持transformers: --deepspeed,以及config文件; model_engine, optimizer, _, _ = deepspeed.initialize(args=cmd_args,model=model,model_parameters=params) 分布式和mixed-precision等,都包含在deep

一文搞懂大模型训练加速框架 DeepSpeed 的使用方法!

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集: 《大模型面试宝典》(2024版) 正式发布! 保姆级学习指南:《Pytorch 实战宝典》来了 在AI领域,常见的深度学习框架TensorFlow、PyTo