pytorch 参数冻结 parameter-efficient fine-tuning

2024-08-27 08:12

本文主要是介绍pytorch 参数冻结 parameter-efficient fine-tuning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目标:在网络中冻结部分参数进行高效训练

框架:pytorch (version 1.11.0)

基本实现

  1. 需要学习的参数requires_grad设置为True,冻结的设置为False
  2. 需要学习的参数要加到 optimizer的List中;对于冻结的参数,可以直接不加进去,(应该也可以加进去,但是requires_grad=False)

注意事项
3. 如果不传递参数的层,记得前向操作是要设置 with torch.no_grad,否则即便没有需要更新的参数,其layer的梯度也回传,效率低。

  1. 要保证所有参与前向的操作,都被用于计算loss。例如,a=self.layer(b),只要前向里出现了这个操作,就要保证a(或a的后续输出)要参与loss的计算。如果a算完了不用,是不可以的。(不论self.layer里是否有需要更新的参数)。ps:这点和不冻结设置下的要求不一样,如果所有参数都学,即便中间有一些变量操作是冗余的,也不会报错,只是增加计算代价而已。(比如,在clip框架里,如果不用text prompt, 就不要提取该特征)
  2. 要保证,所有需要更新的参数,都用于前向计算了。如何比较二者的参数,见下:

a. 记录需要梯度回传的参数:

grad_params = set()
for name, param in model.named_parameters():if param.requires_grad:grad_params.add(name)

b. 记录前向中使用的参数:

used_params = set()
def forward(self, x):for name, param in self.named_parameters():if param.requires_grad:param.register_hook(lambda grad, name=name: used_params.add(name))return self.model(x)

c. 比较二者差异

unused_params = grad_params - used_params
if unused_params:print("以下参数未在 forward 函数中使用:", unused_params)
else:print("所有需要计算梯度的参数都在 forward 函数中使用了。")

ps. 好像也可以通过在nn.parallel.DistributedDataParallel中设置find_unused_parameters=True来找到未使用的变量。(不过我没试过

这篇关于pytorch 参数冻结 parameter-efficient fine-tuning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1111115

相关文章

一文带你了解SpringBoot中启动参数的各种用法

《一文带你了解SpringBoot中启动参数的各种用法》在使用SpringBoot开发应用时,我们通常需要根据不同的环境或特定需求调整启动参数,那么,SpringBoot提供了哪些方式来配置这些启动参... 目录一、启动参数的常见传递方式二、通过命令行参数传递启动参数三、使用 application.pro

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

基于@RequestParam注解之Spring MVC参数绑定的利器

《基于@RequestParam注解之SpringMVC参数绑定的利器》:本文主要介绍基于@RequestParam注解之SpringMVC参数绑定的利器,具有很好的参考价值,希望对大家有所帮助... 目录@RequestParam注解:Spring MVC参数绑定的利器什么是@RequestParam?@

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

pytorch+torchvision+python版本对应及环境安装

《pytorch+torchvision+python版本对应及环境安装》本文主要介绍了pytorch+torchvision+python版本对应及环境安装,安装过程中需要注意Numpy版本的降级,... 目录一、版本对应二、安装命令(pip)1. 版本2. 安装全过程3. 命令相关解释参考文章一、版本对

SpringBoot接收JSON类型的参数方式

《SpringBoot接收JSON类型的参数方式》:本文主要介绍SpringBoot接收JSON类型的参数方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、jsON二、代码准备三、Apifox操作总结一、JSON在学习前端技术时,我们有讲到过JSON,而在

JAVA虚拟机中 -D, -X, -XX ,-server参数使用

《JAVA虚拟机中-D,-X,-XX,-server参数使用》本文主要介绍了JAVA虚拟机中-D,-X,-XX,-server参数使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录一、-D参数二、-X参数三、-XX参数总结:在Java开发过程中,对Java虚拟机(JVM)的启动参数进

解读docker运行时-itd参数是什么意思

《解读docker运行时-itd参数是什么意思》在Docker中,-itd参数组合用于在后台运行一个交互式容器,同时保持标准输入和分配伪终端,这种方式适合需要在后台运行容器并保持交互能力的场景... 目录docker运行时-itd参数是什么意思1. -i(或 --interactive)2. -t(或 --

从零教你安装pytorch并在pycharm中使用

《从零教你安装pytorch并在pycharm中使用》本文详细介绍了如何使用Anaconda包管理工具创建虚拟环境,并安装CUDA加速平台和PyTorch库,同时在PyCharm中配置和使用PyTor... 目录背景介绍安装Anaconda安装CUDA安装pytorch报错解决——fbgemm.dll连接p

pycharm远程连接服务器运行pytorch的过程详解

《pycharm远程连接服务器运行pytorch的过程详解》:本文主要介绍在Linux环境下使用Anaconda管理不同版本的Python环境,并通过PyCharm远程连接服务器来运行PyTorc... 目录linux部署pytorch背景介绍Anaconda安装Linux安装pytorch虚拟环境安装cu