pytorch 参数冻结 parameter-efficient fine-tuning

本文主要是介绍pytorch 参数冻结 parameter-efficient fine-tuning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

目标：在网络中冻结部分参数进行高效训练

框架：pytorch （version 1.11.0)

基本实现：

需要学习的参数requires_grad设置为True，冻结的设置为False
需要学习的参数要加到 optimizer的List中；对于冻结的参数，可以直接不加进去，（应该也可以加进去，但是requires_grad=False)

注意事项：
3. 如果不传递参数的层，记得前向操作是要设置 with torch.no_grad，否则即便没有需要更新的参数，其layer的梯度也回传，效率低。

要保证所有参与前向的操作，都被用于计算loss。例如，a=self.layer(b)，只要前向里出现了这个操作，就要保证a(或a的后续输出)要参与loss的计算。如果a算完了不用，是不可以的。（不论self.layer里是否有需要更新的参数）。ps:这点和不冻结设置下的要求不一样，如果所有参数都学，即便中间有一些变量操作是冗余的，也不会报错，只是增加计算代价而已。（比如，在clip框架里，如果不用text prompt, 就不要提取该特征）
要保证，所有需要更新的参数，都用于前向计算了。如何比较二者的参数，见下:

a. 记录需要梯度回传的参数：

grad_params = set()
for name, param in model.named_parameters():if param.requires_grad:grad_params.add(name)

b. 记录前向中使用的参数：

used_params = set()
def forward(self, x):for name, param in self.named_parameters():if param.requires_grad:param.register_hook(lambda grad, name=name: used_params.add(name))return self.model(x)

c. 比较二者差异

unused_params = grad_params - used_params
if unused_params:print("以下参数未在 forward 函数中使用:", unused_params)
else:print("所有需要计算梯度的参数都在 forward 函数中使用了。")

ps. 好像也可以通过在nn.parallel.DistributedDataParallel中设置find_unused_parameters=True来找到未使用的变量。（不过我没试过

这篇关于pytorch 参数冻结 parameter-efficient fine-tuning的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

pytorch 参数冻结 parameter-efficient fine-tuning

相关文章

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

Java内存分配与JVM参数详解(推荐)

Pytorch介绍与安装过程

conda安装GPU版pytorch默认却是cpu版本

PyTorch中cdist和sum函数使用示例详解

一文详解PostgreSQL复制参数

PyTorch高级特性与性能优化方式

Linux高并发场景下的网络参数调优实战指南

史上最全nginx详细参数配置

判断PyTorch是GPU版还是CPU版的方法小结