18.自监督视觉`transformer`模型DINO

本文主要是介绍18.自监督视觉`transformer`模型DINO，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

自监督视觉`transformer`模型DINO
- 总体介绍
- DINO中使用的SSL和KD方法
- multicrop strategy
- 损失函数定义
- `teacher`输出的中心化与锐化
- 模型总体结构及应用
- - reference

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

自监督视觉`transformer`模型DINO

总体介绍

论文:1.Emerging Properties in Self-Supervised Vision Transformers

这篇文章旨在探索自监督训练有没有给视觉transformer带来相对于CNN没有的新特性。

除了观测到自监督训练ViT工作特别好外，作者还有两个新发现，一个是自监督训练得到的特征图包含明显的语义信息，有可能将自监督的结果直接拿来做语义分割和目标检测，另外一个是直接拿自监督得到的特征向量应用KNN分类，得到了非常好的效果。ps:本人在工程数据(20W张)上验证的直接使用KNN分类的效果比efficient-net还好。

正如DINO的名字缩写，这整个算法使用了知识蒸馏的架构，通过一个teacher网络引导student的学习，使用损失值计算的梯度更新student模型的参数，而teacher模型的参数使用的是student模型参数的指数移动平均值，和BYOL的方法有些相似。除了知识蒸馏，作者还强调了对输入进行RandomResizeCrop和transformer使用小patch_size的重要性。同时，DINO需要对teacher的输出进行中心化和锐化centering and sharpening,否则模型训练会不稳定，甚至崩溃(collapse)。DINO使用的student和teacher且训练过程中相互促进学习，也属于共蒸馏codistillation模型。