kittrain专题

14 大模型微调-KitTrain

1 介绍 如何降低占用的显存: 梯度累计:在一个完整的模型更新周期(epoch)中,将多个小批量(mini-batches)的数据的梯度进行累加,然后在一个较大的批量(累积步数)之后进行一次模型参数更新。梯度检查点;优化器;冻结模型参数;参数高校微调; 但是模型本身的参数并无改变!      之前提到的大模型微调技术都是冻结原模型的参数,然后添加额外的参数进行训练微调。下面我们针对大模型参