首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
accum专题
args.grad_accum_steps = max(1, args.grad_accum_steps)
# 将args.grad_accum_steps的值与1比较取较大值,确保args.grad_accum_steps至少为1。这个设置通常用于控制梯度累积的步数。 args.grad_accum_steps = max(1, args.grad_accum_steps) 梯度累积 why? 模型太大,不能一次性装入显存 What? 将多个小批次的的梯度累积起来,一次性参数更新 how
阅读更多...