极大缩短resnet训练时间并达到极高准确率的一些tricks

2023-11-26 20:50

本文主要是介绍极大缩短resnet训练时间并达到极高准确率的一些tricks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1、模型复杂度与泛化能力的关系
    • 2、DAWNBench
    • 3、Some Tricks
    • 4、实验效果
    • 5、展望

1、模型复杂度与泛化能力的关系

例如对于VGG而言,有11,13,16,19四种深度的模型对应着四种不同的模型复杂度,当然层数越多模型越复杂。大部分人一开始肯定会觉得模型越复杂它所具有的函数拟合能力越强,肯定效果会更好,理论上应该是这样的。但是对于那些追求极致泛化能力的人做了很多实验,发现可能这个结论并不是那么绝对,比如下面这张图

vgg.png

用VGG训练CIFAR-10达到94%的准确率已经很高了,但是这个最大值并不是出现在VGG19而是VGG13。

2、DAWNBench

斯坦福大学提出了DAWNbench,它是一种用于端到端深度学习的基准,用于在不同的优化策略、模型架构、软件框架、云和硬件条件下量化训练时间、训练成本、推理延迟和推理成本。下面我们主要来关注一下各路大神对于CIFAR-10数据集的效果

DAWN.png

第一名用了10s就将CIFAR-10的准确率训练到了94%以上,很惊人的结果。当然现阶段硬件上和别人是有差距的,他们用了8块TeslaV100,而我们现在用的云服务器只有1块TeslaM40,但是依然可以从这个结果上发现很多我们可以利用的地方。

  • 我们知道ResNet也有很多种(18,50,101…),但是他们这里用的是比原作者提出的最小的模型还要小的一个模型,其中一个参赛者提出的具体模型架构如下图(将下图保存在自己电脑上可以查看具体每一层的参数设置)。仅仅使用9层就达到了我自己之前做ResNet作业56层都达不到的一个效果。
  • 硬件虽然达不到别人的要求但是我们可以从他们的代码中学到一些快速训练的tricks,例如在他们训练中都用到了Cycle Learning Rate、大batch_size(512,768)、ReLU换成CELU、数据增强用到了Cutout…后面会展示实验对比。

3、Some Tricks

  • CLR(Cycle Learning Rate)第一次提出是在2017年的一篇WACV上,这个想法还是很新颖的。
clr.png

我们最开始接触深度学习的时候设置学习率可能会默认SGD设置为0.01,Adam设置为0.001;到了后来学的东西多了了解了一些scheduler可能就是从一个较大的lr开始随着epoch开始分段递减。但是这个文章给出了一种循环设置学习率的思想,他将学习率设置为周期变化,由小变大再由大变小,如下图所示

clr1.png

我自己复现了一下发现效果是有的,但是精度上不去很高,不过也有可能是因为我没有太理解作者这篇文章中三个超参数(max_lr,base_lr,stepsize)的设置方法,就不了了之了。

index.png

但是后来看到DAWNBench的各路大神们也用到了这个方法,就再一次聚焦到这个方法。但是有所不同的是DAWNBench里面用到这个方法没有让它循环很多次,而是一上一下就结束了(在后面的复现结果中会有展示)。

  • 用到CLR就会发现,max_lr设置的很大,所以致使batch_size很大(512,786),自己做实验最大设置过128,没想过这么大的batch_size。而且如果GPU核数够大batch_size越大时间越小,但是现在我们用的效果不明显因为已经超过最大负荷了,所以时间都一样,都是要排队的。
  • 将线性修正单元ReLU改为CELU,ReLU分段都是线性有折点,而CELU是全程非线性的并且无折点。
  • 数据增强用到了pytorch中不自带的Cutout功能,随机将一张图片的一小部分”遮挡“,需要自己写函数完成。

4、实验效果

  • 实验结果显示出有很大提升,之前完成VGG和ResNet作业跑100-300 epochs(快的话1-2 hours)才能达到的效果,运用上述方法在30 epochs(10 min)之内便可以达到93%左右的精度,并且如果GPU性能更好,在时间上节省会更多。
  • 在实验设置上比较了四种学习率的设置,第一个是应对768 batchsize的CLR学习率设置,第二个是应对512 batchsize的CLR学习率设置,第三个是我自己之前一直用的效果也很好的每三十个回合学习率减半的设置,第四个是最普通的恒定学习率。模型上对比了ResNet9和ResNet56的收敛时间。也对比了trick之间的影响。
resnet9.png

5、展望

  • 其实最近也在学习apex进行精度混合训练,将pytorch默认的32位运算变成16位和32位自动混合运算,精度不会下降很多但是可以极大减小训练时间,并且显存也能降低。但是现阶段云端服务器不支持tensorcore,希望疫情过后早日回归大家庭,冲冲冲!

这篇关于极大缩短resnet训练时间并达到极高准确率的一些tricks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/426290

相关文章

go中的时间处理过程

《go中的时间处理过程》:本文主要介绍go中的时间处理过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 获取当前时间2 获取当前时间戳3 获取当前时间的字符串格式4 相互转化4.1 时间戳转时间字符串 (int64 > string)4.2 时间字符串转时间

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明:对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制:实现风险标准化策略实施的技术细节波动率调整的战略价

Python日期和时间完全指南与实战

《Python日期和时间完全指南与实战》在软件开发领域,‌日期时间处理‌是贯穿系统设计全生命周期的重要基础能力,本文将深入解析Python日期时间的‌七大核心模块‌,通过‌企业级代码案例‌揭示最佳实践... 目录一、背景与核心价值二、核心模块详解与实战2.1 datetime模块四剑客2.2 时区处理黄金法

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Pandas进行周期与时间戳转换的方法

《Pandas进行周期与时间戳转换的方法》本教程将深入讲解如何在pandas中使用to_period()和to_timestamp()方法,完成时间戳与周期之间的转换,并结合实际应用场景展示这些方法的... 目录to_period() 时间戳转周期基本操作应用示例to_timestamp() 周期转时间戳基

JavaScript时间戳与时间的转化常用方法

《JavaScript时间戳与时间的转化常用方法》在JavaScript中,时间戳(Timestamp)通常指Unix时间戳,即从1970年1月1日00:00:00UTC到某个时间点经过的毫秒数,下面... 目录1. 获取当前时间戳2. 时间戳 → 时间对象3. 时间戳php → 格式化字符串4. 时间字符

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及