On Data Scaling in Masked Image Modelin

本文主要是介绍On Data Scaling in Masked Image Modelin，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文名称：On Data Scaling in Masked Image Modeling
发表时间：CVPR2023
作者及组织：Zhenda Xie, ZhengZhang, Hu Han等，来自清华，西安交大，微软亚洲研究院。

前言

本文验证SIMMIM无监督预训练方法，是否会出现与NLP类似的拓展法则现象。

1、结论

这篇论文做了大量的对比实验，因此，先说结论：
1）大模型在小数据上过拟合；（感觉没啥a）
2）MIM需要更多的训练次数 $T$ ;
3）预训练阶段的valid loss是对下游任务性能的很好代理指标。
总结：MIM的拓展法则可用这个式子近似：
$\begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation}$

2、实验

2.1.对比实验配置

1）模型：swin，参数量：50M_{1B，Flops：9G}190G；
在这里插入图片描述

2) 数据：如下图所示，将ImageNet1k按百分比划分出若干组子数据；
在这里插入图片描述

3) 训练时长：125k，250k以及500k。在ImageNet1k上换算就是200,400,800epochs。

2.2.Pretrained实验结论：

在这里插入图片描述

上图表示在不同训练时长下在ImageNet1k上的精度：
首先说下simmim预训练方法的一个性质：能够用较少的数据跟用大量数据的有监督学习的精度持平。
1）第二列：Swin_L比Swin_H精度高，因为后者在IN1k20%出现过拟合；
2）当IN1k增加到IN22k时，Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了，要想精度更高可能需要调大模型。
3）在800epoch下，IN1K对于上述五个模型均未出现过拟合！IN1k对于小模型的数据量是够用的。