tranformer专题

Tranformer分布式特辑

随着大模型的发展，如何进行分布式训练也成了每位开发者必备的技能。单机训练 CPU OffloadingGradient Checkpointing 正向传播时，不存储当前节点的中间结果，在反向传播时重新计算，从而起到降低显存占用的作用 Low Precision Data TypesMemory Efficient Optimizers 分布式数据并行（DP）和模型并行（MP）分布

RNN/LSTM/GRU/TRANFORMER/编码器解码器理解

编码器和解码器是一种框架,lstm和gru都是这个框架中对这一框架的不同实现编码器与解码器是一种架构,一种思想,注意力也是一种思想,相互独立,只是二者可以结合以用来训练模型可以提升模型能力 rnn gru lstm是三种不同的模型里面并没有注意力机制这回事 RNN中有编码器和解码器实现,为什么要重新使用gru定义解码器和编码器? 编码器和解码器是一种思想,工业界实现目前也仅仅使用一个,但是通过