极大缩短resnet训练时间并达到极高准确率的一些tricks

2023-11-26 20:50

本文主要是介绍极大缩短resnet训练时间并达到极高准确率的一些tricks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1、模型复杂度与泛化能力的关系
    • 2、DAWNBench
    • 3、Some Tricks
    • 4、实验效果
    • 5、展望

1、模型复杂度与泛化能力的关系

例如对于VGG而言,有11,13,16,19四种深度的模型对应着四种不同的模型复杂度,当然层数越多模型越复杂。大部分人一开始肯定会觉得模型越复杂它所具有的函数拟合能力越强,肯定效果会更好,理论上应该是这样的。但是对于那些追求极致泛化能力的人做了很多实验,发现可能这个结论并不是那么绝对,比如下面这张图

vgg.png

用VGG训练CIFAR-10达到94%的准确率已经很高了,但是这个最大值并不是出现在VGG19而是VGG13。

2、DAWNBench

斯坦福大学提出了DAWNbench,它是一种用于端到端深度学习的基准,用于在不同的优化策略、模型架构、软件框架、云和硬件条件下量化训练时间、训练成本、推理延迟和推理成本。下面我们主要来关注一下各路大神对于CIFAR-10数据集的效果

DAWN.png

第一名用了10s就将CIFAR-10的准确率训练到了94%以上,很惊人的结果。当然现阶段硬件上和别人是有差距的,他们用了8块TeslaV100,而我们现在用的云服务器只有1块TeslaM40,但是依然可以从这个结果上发现很多我们可以利用的地方。

  • 我们知道ResNet也有很多种(18,50,101…),但是他们这里用的是比原作者提出的最小的模型还要小的一个模型,其中一个参赛者提出的具体模型架构如下图(将下图保存在自己电脑上可以查看具体每一层的参数设置)。仅仅使用9层就达到了我自己之前做ResNet作业56层都达不到的一个效果。
  • 硬件虽然达不到别人的要求但是我们可以从他们的代码中学到一些快速训练的tricks,例如在他们训练中都用到了Cycle Learning Rate、大batch_size(512,768)、ReLU换成CELU、数据增强用到了Cutout…后面会展示实验对比。

3、Some Tricks

  • CLR(Cycle Learning Rate)第一次提出是在2017年的一篇WACV上,这个想法还是很新颖的。
clr.png

我们最开始接触深度学习的时候设置学习率可能会默认SGD设置为0.01,Adam设置为0.001;到了后来学的东西多了了解了一些scheduler可能就是从一个较大的lr开始随着epoch开始分段递减。但是这个文章给出了一种循环设置学习率的思想,他将学习率设置为周期变化,由小变大再由大变小,如下图所示

clr1.png

我自己复现了一下发现效果是有的,但是精度上不去很高,不过也有可能是因为我没有太理解作者这篇文章中三个超参数(max_lr,base_lr,stepsize)的设置方法,就不了了之了。

index.png

但是后来看到DAWNBench的各路大神们也用到了这个方法,就再一次聚焦到这个方法。但是有所不同的是DAWNBench里面用到这个方法没有让它循环很多次,而是一上一下就结束了(在后面的复现结果中会有展示)。

  • 用到CLR就会发现,max_lr设置的很大,所以致使batch_size很大(512,786),自己做实验最大设置过128,没想过这么大的batch_size。而且如果GPU核数够大batch_size越大时间越小,但是现在我们用的效果不明显因为已经超过最大负荷了,所以时间都一样,都是要排队的。
  • 将线性修正单元ReLU改为CELU,ReLU分段都是线性有折点,而CELU是全程非线性的并且无折点。
  • 数据增强用到了pytorch中不自带的Cutout功能,随机将一张图片的一小部分”遮挡“,需要自己写函数完成。

4、实验效果

  • 实验结果显示出有很大提升,之前完成VGG和ResNet作业跑100-300 epochs(快的话1-2 hours)才能达到的效果,运用上述方法在30 epochs(10 min)之内便可以达到93%左右的精度,并且如果GPU性能更好,在时间上节省会更多。
  • 在实验设置上比较了四种学习率的设置,第一个是应对768 batchsize的CLR学习率设置,第二个是应对512 batchsize的CLR学习率设置,第三个是我自己之前一直用的效果也很好的每三十个回合学习率减半的设置,第四个是最普通的恒定学习率。模型上对比了ResNet9和ResNet56的收敛时间。也对比了trick之间的影响。
resnet9.png

5、展望

  • 其实最近也在学习apex进行精度混合训练,将pytorch默认的32位运算变成16位和32位自动混合运算,精度不会下降很多但是可以极大减小训练时间,并且显存也能降低。但是现阶段云端服务器不支持tensorcore,希望疫情过后早日回归大家庭,冲冲冲!

这篇关于极大缩短resnet训练时间并达到极高准确率的一些tricks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/426290

相关文章

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

批处理以当前时间为文件名创建文件

批处理以当前时间为文件名创建文件 批处理创建空文件 有时候,需要创建以当前时间命名的文件,手动输入当然可以,但是有更省心的方法吗? 假设我是 windows 操作系统,打开命令行。 输入以下命令试试: echo %date:~0,4%_%date:~5,2%_%date:~8,2%_%time:~0,2%_%time:~3,2%_%time:~6,2% 输出类似: 2019_06

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

【MRI基础】TR 和 TE 时间概念

重复时间 (TR) 磁共振成像 (MRI) 中的 TR(重复时间,repetition time)是施加于同一切片的连续脉冲序列之间的时间间隔。具体而言,TR 是施加一个 RF(射频)脉冲与施加下一个 RF 脉冲之间的持续时间。TR 以毫秒 (ms) 为单位,主要控制后续脉冲之前的纵向弛豫程度(T1 弛豫),使其成为显著影响 MRI 中的图像对比度和信号特性的重要参数。 回声时间 (TE)

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练,本文进行介绍。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注

LeetCode:64. 最大正方形 动态规划 时间复杂度O(nm)

64. 最大正方形 题目链接 题目描述 给定一个由 0 和 1 组成的二维矩阵,找出只包含 1 的最大正方形,并返回其面积。 示例1: 输入: 1 0 1 0 01 0 1 1 11 1 1 1 11 0 0 1 0输出: 4 示例2: 输入: 0 1 1 0 01 1 1 1 11 1 1 1 11 1 1 1 1输出: 9 解题思路 这道题的思路是使用动态规划

Detectorn2预训练模型复现:数据准备、训练命令、日志分析与输出目录

Detectorn2预训练模型复现:数据准备、训练命令、日志分析与输出目录 在深度学习项目中,目标检测是一项重要的任务。本文将详细介绍如何使用Detectron2进行目标检测模型的复现训练,涵盖训练数据准备、训练命令、训练日志分析、训练指标以及训练输出目录的各个文件及其作用。特别地,我们将演示在训练过程中出现中断后,如何使用 resume 功能继续训练,并将我们复现的模型与Model Zoo中的

O(n)时间内对[0..n^-1]之间的n个数排序

题目 如何在O(n)时间内,对0到n^2-1之间的n个整数进行排序 思路 把整数转换为n进制再排序,每个数有两位,每位的取值范围是[0..n-1],再进行基数排序 代码 #include <iostream>#include <cmath>using namespace std;int n, radix, length_A, digit = 2;void Print(int *A,

LeetCode:3177. 求出最长好子序列 II 哈希表+动态规划实现n*k时间复杂度

3177. 求出最长好子序列 II 题目链接 题目描述 给你一个整数数组 nums 和一个非负整数k 。如果一个整数序列 seq 满足在下标范围 [0, seq.length - 2] 中 最多只有 k 个下标i满足 seq[i] != seq[i + 1] ,那么我们称这个整数序列为好序列。请你返回 nums中好子序列的最长长度。 实例1: 输入:nums = [1,2,1,1,3],