本文主要是介绍pytorch 参数冻结 parameter-efficient fine-tuning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目标:在网络中冻结部分参数进行高效训练
框架:pytorch (version 1.11.0)
基本实现:
- 需要学习的参数
requires_grad
设置为True
,冻结的设置为False
- 需要学习的参数要加到 optimizer的List中;对于冻结的参数,可以直接不加进去,(应该也可以加进去,但是
requires_grad=False
)
注意事项:
3. 如果不传递参数的层,记得前向操作是要设置 with torch.no_grad
,否则即便没有需要更新的参数,其layer的梯度也回传,效率低。
- 要保证所有参与前向的操作,都被用于计算loss。例如,
a=self.layer(b)
,只要前向里出现了这个操作,就要保证a(或a的后续输出)要参与loss的计算。如果a算完了不用,是不可以的。(不论self.layer里是否有需要更新的参数)。ps:这点和不冻结设置下的要求不一样,如果所有参数都学,即便中间有一些变量操作是冗余的,也不会报错,只是增加计算代价而已。(比如,在clip框架里,如果不用text prompt, 就不要提取该特征) - 要保证,所有需要更新的参数,都用于前向计算了。如何比较二者的参数,见下:
a. 记录需要梯度回传的参数:
grad_params = set()
for name, param in model.named_parameters():if param.requires_grad:grad_params.add(name)
b. 记录前向中使用的参数:
used_params = set()
def forward(self, x):for name, param in self.named_parameters():if param.requires_grad:param.register_hook(lambda grad, name=name: used_params.add(name))return self.model(x)
c. 比较二者差异
unused_params = grad_params - used_params
if unused_params:print("以下参数未在 forward 函数中使用:", unused_params)
else:print("所有需要计算梯度的参数都在 forward 函数中使用了。")
ps. 好像也可以通过在nn.parallel.DistributedDataParallel
中设置find_unused_parameters=True
来找到未使用的变量。(不过我没试过
这篇关于pytorch 参数冻结 parameter-efficient fine-tuning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!