DINO结构中的exponential moving average (ema)和stop-gradient (sg)

2024-05-28 21:28

本文主要是介绍DINO结构中的exponential moving average (ema)和stop-gradient (sg),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DINO思路介绍

在这里插入图片描述

在 DINO 中,教师和学生网络分别预测一个一维的嵌入。为了训练学生模型,我们需要选取一个损失函数,不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法,来让学生模型的输出与教师模型的输出匹配。具体地,通过 softmax 函数把教师和学生的嵌入向量尺度压缩到 0 到 1 之间,并计算两个向量的交叉熵损失。这样,在训练过程中,学生模型可以通过模仿教师模型的输出来学习更好的特征表示,从而提高模型的性能和泛化能力。当然,这也可以看作是一个分类问题,以便网络可以从局部视图中学习更有意义的全局表示。

论文对图片中DINO结构的解释如下

我们用一个简单的视角对 (x1, x2) 来说明DINO。在该模型中,输入图像经过两种不同的随机变换后分别传递给学生网络和教师网络。两个网络具有相同的架构但参数不同。教师网络的输出以批次的均值进行中心化。每个网络输出一个K 维的特征,并通过特征维度上的温度 softmax进行归一化。然后通过交叉熵损失函数来测量它们的相似性。我们在教师网络上应用一个停止梯度(stop-gradient,sg)操作,以仅通过学生网络传播梯度。教师网络的参数通过学生网络参数的指数移动平均(ema)来更新。

核心特点

无标签自蒸馏: 不需要人工标注的数据,通过模型自身的知识传递来进行训练。
双视角 (x1, x2): 输入图像经过两种不同的随机变换,生成两种视角,以增加数据的多样性和模型的鲁棒性。
学生网络和教师网络: 两个网络结构相同,但参数不同。学生网络用于训练,教师网络提供稳定的指导信号。
教师网络输出中心化: 教师网络的输出在批次内进行中心化处理,以消除偏差并稳定训练过程。
温度 Softmax 归一化: 网络输出通过温度 Softmax 进行归一化,控制特征向量的平滑度,防止梯度消失或爆炸。
相似性度量: 通过交叉熵损失函数测量学生网络和教师网络输出之间的相似性,鼓励学生网络学习到与教师网络相似的表示。
停止梯度操作(SG): 在教师网络上应用停止梯度操作,确保梯度只通过学生网络进行反向传播,避免教师网络影响梯度更新。
指数移动平均更新(EMA): 教师网络的参数通过学生网络参数的指数移动平均进行更新,确保教师网络的参数更加平滑和稳定,从而提供可靠的指导信号。

再总结一下:在两个完全一样的教师和学生网络(ViT/CNN 均可)中

  • 教师网络通过 centering 和 sharpening 正则化避免训练崩塌。
      • Centering:教师模型的输出也经过 EMA 操作,从原始激活值中减去一个平均值。
      • Sharpening:在 Softmax 中加入一个 temperature 参数,强制让概率分布更加尖锐。
    • 两个网络的输出都通过 Softmax 层归一化处理
    • 通过交叉熵损失计算损失
  • 学生网络通过 SGD 更新参数,并通过 EMA 更新教师网络参数,教师网络的参数因为sg不会自己动**。

问题一:centering中使用的EMA(Exponential Moving Average)是什么东西,指数是怎么被体现的

在 DINO 中,教师网络的参数通过学生网络参数的指数移动平均(Exponential Moving Average, EMA)进行更新。以下是 EMA 操作的详细解释:

1. 定义

EMA 是一种用于平滑时间序列数据的技术,它通过对新数据赋予较高权重,同时对旧数据赋予较低权重,从而平滑数据变化。具体来说,EMA 的计算公式为:

θ t teacher = α θ t student + ( 1 − α ) θ t − 1 teacher \theta_t^{\text{teacher}} = \alpha \theta_t^{\text{student}} + (1 - \alpha) \theta_{t-1}^{\text{teacher}} θtteacher=αθtstudent+(1α)θt1teacher

其中:

  • θ t teacher \theta_t^{\text{teacher}} θtteacher 是第 t t t 次更新后的教师网络参数。
  • θ t student \theta_t^{\text{student}} θtstudent 是第 t t t 次学生网络的参数。
  • α \alpha α 是平滑系数,介于 0 和 1 之间,通常取一个较小的值(例如 0.99 或 0.999)。
  • θ t − 1 teacher \theta_{t-1}^{\text{teacher}} θt1teacher 是第 t − 1 t-1 t1 次更新后的教师网络参数。
2. 指数的体现

EMA 操作中的“指数”体现在计算过程中旧数据的权重以指数形式递减。具体地,如果我们展开几次 EMA 的更新,可以看到:

θ t teacher = α θ t student + α ( 1 − α ) θ t − 1 student + α ( 1 − α ) 2 θ t − 2 student + ⋯ \theta_t^{\text{teacher}} = \alpha \theta_t^{\text{student}} + \alpha(1 - \alpha) \theta_{t-1}^{\text{student}} + \alpha(1 - \alpha)^2 \theta_{t-2}^{\text{student}} + \cdots θtteacher=αθtstudent+α(1α)θt1student+α(1α)2θt2student+

这表明旧数据的权重以 ( (1 - \alpha)^k ) 的形式递减,其中 ( k ) 是时间步长。因此,最近的数据对当前参数的影响最大,而更早的数据影响则逐渐减小,以指数形式衰减。

3. 核心思想

EMA 操作的核心思想是使教师网络参数逐步融合学生网络的最新知识,同时保留一部分历史信息。这使得教师网络参数更新更加平滑,避免剧烈波动,从而提供稳定的指导信号。

4. 优点
  • 稳定性:通过 EMA,教师网络参数的变化更加平滑,减小了训练过程中的不稳定性。
  • 延迟效应:EMA 赋予新数据较高权重,能够快速反映学生网络的最新学习成果,同时历史信息的保留可以防止模型过拟合于噪声数据。
  • 无梯度反传:在 DINO 中,教师网络的参数更新不需要反向传播梯度,EMA 操作直接基于学生网络参数进行更新,这简化了计算。
5. 在 DINO 中的应用

在 DINO 的训练过程中,教师网络的参数不参与反向传播,而是通过 EMA 操作根据学生网络的参数进行更新。这确保了教师网络能够稳定地指导学生网络学习,同时防止了学生网络的梯度直接影响教师网络。

途中右上角有个sg,这个停止梯度操作又是什么

停止梯度操作 (Stop-Gradient)

在 DINO 中,我们在教师网络上应用了停止梯度(stop-gradient, sg)操作,使得梯度只通过学生网络进行传播。具体来说,停止梯度操作的目的是阻止梯度在反向传播时更新教师网络的参数,而仅更新学生网络的参数。

定义

停止梯度操作是一种在反向传播过程中冻结部分网络参数的技术。通过这种操作,某些部分的网络参数不会更新,以保持其值不变。

作用与优点
  1. 保持教师网络的稳定性:通过停止梯度操作,教师网络的参数在训练过程中保持不变,这有助于提供稳定的指导信号。
  2. 防止梯度泄漏:停止梯度操作可以防止梯度从学生网络泄漏到教师网络,从而确保梯度仅用于更新学生网络的参数。
  3. 增强训练效果:这种操作确保学生网络在训练过程中受到稳定的指导信号,促进其更有效地学习。
在 DINO 中的应用

在 DINO 的训练过程中,教师网络的参数通过指数移动平均(EMA)从学生网络的参数中更新,但不参与反向传播。具体来说:

  • 我们对教师网络应用停止梯度操作,使得梯度不通过教师网络进行传播。
  • 教师网络的参数更新通过 EMA 操作,从学生网络的参数中获得。

停止梯度操作 (Stop-Gradient)

在 DINO 中,我们在教师网络上应用了停止梯度(stop-gradient, sg)操作,使得梯度只通过学生网络进行传播。具体来说,停止梯度操作的目的是阻止梯度在反向传播时更新教师网络的参数,而仅更新学生网络的参数。

定义

停止梯度操作是一种在反向传播过程中冻结部分网络参数的技术。通过这种操作,某些部分的网络参数不会更新,以保持其值不变。

作用与优点
  1. 保持教师网络的稳定性:通过停止梯度操作,教师网络的参数在训练过程中保持不变,这有助于提供稳定的指导信号。
  2. 防止梯度泄漏:停止梯度操作可以防止梯度从学生网络泄漏到教师网络,从而确保梯度仅用于更新学生网络的参数。
  3. 增强训练效果:这种操作确保学生网络在训练过程中受到稳定的指导信号,促进其更有效地学习。
在 DINO 中的应用

在 DINO 的训练过程中,教师网络的参数通过指数移动平均(EMA)从学生网络的参数中更新,但不参与反向传播。具体来说:

  • 我们对教师网络应用停止梯度操作,使得梯度不通过教师网络进行传播。
  • 教师网络的参数更新通过 EMA 操作,从学生网络的参数中获得。

这篇关于DINO结构中的exponential moving average (ema)和stop-gradient (sg)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1011737

相关文章

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

自定义类型:结构体(续)

目录 一. 结构体的内存对齐 1.1 为什么存在内存对齐? 1.2 修改默认对齐数 二. 结构体传参 三. 结构体实现位段 一. 结构体的内存对齐 在前面的文章里我们已经讲过一部分的内存对齐的知识,并举出了两个例子,我们再举出两个例子继续说明: struct S3{double a;int b;char c;};int mian(){printf("%zd\n",s

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据

C语言程序设计(选择结构程序设计)

一、关系运算符和关系表达式 1.1关系运算符及其优先次序 ①<(小于) ②<=(小于或等于) ③>(大于) ④>=(大于或等于 ) ⑤==(等于) ⑥!=(不等于) 说明: 前4个优先级相同,后2个优先级相同,关系运算符的优先级低于算术运算符,关系运算符的优先级高于赋值运算符 1.2关系表达式 用关系运算符将两个表达式(可以是算术表达式或关系表达式,逻辑表达式,赋值表达式,字符

Science|癌症中三级淋巴结构的免疫调节作用与治疗潜力|顶刊精析·24-09-08

小罗碎碎念 Science文献精析 今天精析的这一篇综述,于2022-01-07发表于Science,主要讨论了癌症中的三级淋巴结构(Tertiary Lymphoid Structures, TLS)及其在肿瘤免疫反应中的作用。 作者类型作者姓名单位名称(中文)通讯作者介绍第一作者Ton N. Schumacher荷兰癌症研究所通讯作者之一通讯作者Daniela S. Thomm

oracle11.2g递归查询(树形结构查询)

转自: 一 二 简单语法介绍 一、树型表结构:节点ID 上级ID 节点名称二、公式: select 节点ID,节点名称,levelfrom 表connect by prior 节点ID=上级节点IDstart with 上级节点ID=节点值 oracle官网解说 开发人员:SQL 递归: 在 Oracle Database 11g 第 2 版中查询层次结构数据的快速

Tomcat下载压缩包解压后应有如下文件结构

1、bin:存放启动和关闭Tomcat的命令的路径。 2、conf:存放Tomcat的配置,所有的Tomcat的配置都在该路径下设置。 3、lib:存放Tomcat服务器的核心类库(JAR文件),如果需要扩展Tomcat功能,也可将第三方类库复制到该路径下。 4、logs:这是一个空路径,该路径用于保存Tomcat每次运行后产生的日志。 5、temp:保存Web应用运行过程中生成的临时文件

C和指针:结构体(struct)和联合(union)

结构体和联合 结构体 结构体包含一些数据成员,每个成员可能具有不同的类型。 数组的元素长度相同,可以通过下标访问(转换为指针)。但是结构体的成员可能长度不同,所以不能用下标来访问它们。成员有自己的名字,可以通过名字访问成员。 结构声明 在声明结构时,必须列出它包含的所有成员。 struct tag {member-list} variable-list ; 定义一个结构体变量x(包含

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 (debug笔记)

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 ##一、 缘由及解决方法 把这个pytorch-ddpg|github搬到jupyter notebook上运行时,出现错误Nn criterions don’t compute the gradient w.r.t. targets error。注:我用

Java Web应用程序的推荐目录结构

以前没有用过maven管理过项目的依赖,最后使用上了maven,发现通过不能方式建立出来的web应用程序目录结构基本都不一样,既然每次都要到网上搜索如何建立maven管理的Web应用程序,不如自己找百度谷歌一下。 找了半天 ,感觉比较好的maven管理的web应用程序目录结构是这个: ├── pom.xml└── src├── main│ ├── java│ │ └── myg