如何快速高效的训练ResNet,各种奇技淫巧(三):正则化

2024-06-21 09:18

本文主要是介绍如何快速高效的训练ResNet,各种奇技淫巧(三):正则化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:David Page

编译:ronghuaiyang

导读

这个系列介绍了如何在CIFAR10上高效的训练ResNet,到第4篇文章为止,我们使用单个V100的GPU,可以在79s内训练得到94%的准确率。里面有各种各样的trick和相关的解释,非常好。

我们发现了一个性能瓶颈,并增加了正则化,从而将训练时间进一步缩短到154秒。

我们要和8个gpu竞争

在最后一篇文章的结尾,我们在CIFAR10上,在256秒内训练达到了94%的测试准确度。相比之下,最初的基准是341s,而基于单个V100 GPU上100%计算效率的40s目标有些不切实际。今天我们的目标是实现一个中间目标——超越fast.ai的DAWNBench entry。我们将继续使用一个GPU,因为我们离用上所有的 FLOPs还有很长的路要走。

通过选择性地删除部分计算并运行其余部分,我们可以得到当前设置的粗略计时概要。例如,我们可以将随机的训练数据预加载到GPU上,以消除数据加载和传输时间。我们还可以删除优化器优化的步骤、ReLU和batch norm层,只留下卷积。如果我们这样做,我们得到了在一系列batch size上的粗略的时间细分:

640?wx_fmt=png

有几件事很突出。首先,大量时间花在batch norm的计算上。其次,主要的卷积骨干网(包括池化层和逐点加法)的计算效率比预计的大约1秒(100%计算效率)要长得多。第三,优化器和dataloader步骤似乎不是一个主要瓶颈,也不是立即进行优化的重点。

在GPU专家Graham Hazel的帮助下,我们看了一些资料,并很快在那里找到了batch norm的问题——PyTorch(版本0.4)中默认的将模型转换为半精度的方法触发了一个缓慢的代码路径,没有使用优化的CuDNN方法。如果我们将batch norm的权重转换回单精度,那么快速代码就会被触发,并且看起来会更好:

640?wx_fmt=png

随着这个改进,使用35个epochs的训练到94%的准确率的时间下降到186s,接近我们的目标!

有很多事情我们可以试着越过这条线,把训练降到174s以下。GPU代码的进一步优化是可用的,例如激活数据目前以NCHW格式存储,而TensorCores的快速CuDNN卷积方法希望数据按NHWC顺序存储。正如这里所描述的,向前和向后计算在每个卷积之前和之后执行转置,占整个运行时的很大一部分。由于PyTorch 0.4不支持本机NHWC计算,而且在其他框架中似乎也没有成熟的支持,所以我们暂时不讨论这个问题,可能会在稍后的文章中重新讨论。

将训练时间缩短到30个epochs,就可以完成161秒的训练,轻松地超过我们目前的目标,但简单加速基线的学习率策略,0/5的训练达到94%的准确率。

一个简单的正则化方案在CIFAR10上已经被证明是有效的,它被称为Cutout正则化,它包括将每个训练图像的随机子集归零。除了填充、剪切和随机左右翻转等标准数据增强之外,我们还对训练图像的随机8×8平方子集进行了尝试了这种方法。

基线35个epoch训练计划的结果是有前途的,5/5次跑达到94%的准确率,中位数跑达到94.3%,比基线略有改善。稍微手动优化学习率策略(将峰值学习率提前,用简单的线性衰减代替阶段衰减,因为过拟合的最后阶段似乎对额外的正则化没有帮助)可以使中值运行到94.5%。

如果我们对学习率策略加速,加快到30个epoch, 4/5次运行达到94%,中间值为94.13%。我们可以将batch size大小提高到768,4/5达到94%,中间值为94.06%。epoch运行30次的时间是batch size为512的161秒和batch size为768的154秒,轻松地超过了我们的目标,并为训练CIFAR10到94%测试准确度的任务设置了一个新的速度记录,所有这些都在一个GPU上!为供参考,新的30个epochs的学习率策略表如下图所示。其他超参数(动量=0.9,重量衰减=5e-4)保持在初始训练设置的值。

640?wx_fmt=png

已经完成了我们在文章开头设定的目标,是时候结束今天的工作了。这些计时的代码可以在这里找到:https://github.com/davidcpage/cifar10-fast/blob/master/ents.ipynb。我们的新记录,尽管如此,应该很容易改进。首先,我们在一个GPU上仍然保持低于25%的计算效率,有已知的优化可以改善这一点。其次,应该可以使用Mixup规范化和AdamW训练等技术来减少训练周期的数量。我们还没有探索参数平均来加速最终的收敛,如果我们准备在推理时间上做更多的工作,就有可能使用测试时间增加来进一步减少训练时间。有传言说可以用少于20个epochs的训练运行,这些技术的组合尽管是为更大的网络用的,对这些途径进一步的探索会非常有趣。

然而,我们将暂时不探讨这些途径,而是看看我们迄今为止一直在使用的网络体系结构。我们将发现,这是一个用于优化的异常丰富的地方。

第4部分中,我们简化了网络体系结构,让训练变得更快。

640?wx_fmt=png

—END—

英文原文:https://myrtle.ai/how-to-train-your-resnet-3-regularisation/

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧640?wx_fmt=gif

这篇关于如何快速高效的训练ResNet,各种奇技淫巧(三):正则化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080811

相关文章

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

YOLO v3 训练速度慢的问题

一天一夜出了两个模型,仅仅迭代了200次   原因:编译之前没有将Makefile 文件里的GPU设置为1,编译的是CPU版本,必须训练慢   解决方案: make clean  vim Makefile make   再次训练 速度快了,5分钟迭代了500次

LVGL快速入门笔记

目录 一、基础知识 1. 基础对象(lv_obj) 2. 基础对象的大小(size) 3. 基础对象的位置(position) 3.1 直接设置方式 3.2 参照父对象对齐 3.3 获取位置 4. 基础对象的盒子模型(border-box) 5. 基础对象的样式(styles) 5.1 样式的状态和部分 5.1.1 对象可以处于以下状态States的组合: 5.1.2 对象

将一维机械振动信号构造为训练集和测试集(Python)

从如下链接中下载轴承数据集。 https://www.sciencedirect.com/science/article/pii/S2352340918314124 import numpy as npimport scipy.io as sioimport matplotlib.pyplot as pltimport statistics as statsimport pandas

【Qt6.3 基础教程 16】 掌握Qt中的时间和日期:QTimer和QDateTime的高效应用

文章目录 前言QTimer:定时任务的强大工具QTimer的基本用法高级特性:单次定时器 QDateTime:处理日期和时间获取当前日期和时间日期和时间的格式化输出日期和时间计算 用例:创建一个倒计时应用结论 前言 在开发桌面应用程序时,处理时间和日期是一个常见且重要的任务。Qt框架提供了强大的工具来处理与时间相关的功能,其中QTimer和QDateTime是最核心的类。本

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读

想让Python序列切片更高效?这些技巧你不可不知!

目录 1、自定义类实现切片 🍏 1.1 实现__getitem__方法 1.2 支持正负索引与步长 2、利用 collections.abc 模块 🧠 2.1 继承MutableSequence类 2.2 重写关键方法 3、使用标准库itertools.slice 🍲 3.1 itertools工具介绍 3.2 slice函数应用实例 4、通过生成器实现动态切片 🌀

6月21日训练 (东北林业大学)(个人题解)

前言:   这次训练是大一大二一起参加的训练,总体来说难度是有的,我和队友在比赛时间内就写出了四道题,之后陆陆续续又补了了三道题,还有一道题看了学长题解后感觉有点超出我的能力范围了,就留给以后的自己吧。话不多说,上正文。 正文:   Problem:A 幸运数字: #include <bits/stdc++.h>using namespace std;int sum,ans;in

【Spring】Spring Boot 快速入门

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏小杨水平有限,欢迎各位大佬指点,相互学习进步! 小杨近些在学习人工智能方面的知识,发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一

Android 常用正则工具

支持 手机号、座机号、身份证、微信号、密码、QQ、邮箱正则 import java.util.regex.Pattern;public class Validator {/*** 手机号正则*/public static String REGEX_PHONE = "^(13[0-9]|14[5-9]|15[0-3,5-9]|16[2,5,6,7]|17[0-8]|18[0-9]|19[1,3,5