GiantPandaCV | 提升分类模型acc(二):图像分类技巧实战

2024-06-12 21:36

本文主要是介绍GiantPandaCV | 提升分类模型acc(二):图像分类技巧实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文来源公众号“GiantPandaCV”,仅用于学术分享,侵权删,干货满满。

原文链接:提升分类模型acc(二):图像分类技巧实战

上一篇文章GiantPandaCV | 提升分类模型acc(一):BatchSize&LARS-CSDN博客探讨了训练的bs大小和LARS对精度的影响,本篇文章是本系列的第二篇文章,主要是介绍张航的Bag of Tricks for Image Classification 中的一些方法以及自己实际使用的一些trick。

论文链接:https://arxiv.org/abs/1812.01187
R50-vd代码: https://github.com/FlyEgle/ResNet50vd-pytorch
知乎专栏: https://zhuanlan.zhihu.com/p/409920002

1 前言

如何提升业务分类模型的性能,一直是个难题,毕竟没有99.999%的性能都会带来一定程度的风险,所以很多时候只能通过控制阈值来调整准召以达到想要的效果。本系列主要探究哪些模型trick和数据的方法可以大幅度让你的分类性能更上一层楼,不过要注意一点的是,tirck不一定是适用于不同的数据场景的,但是数据处理方法是普适的。

ps: 文章比较长,不喜欢长文可以直接跳到结尾看结论。

简单的回顾一下第一篇文章的结论: 使用大的batchsize训练会略微降低acc,可以使用LARS进行一定程度的提升,但是需要进行适当的微调,对于业务来说,使用1k的batchsize比较合适。

2 实验配置

  • 模型: ResNet50, CMT-tiny

  • 数据: ImageNet1k & 业务数据

  • 环境: 8xV100

ps: 简单的说明一下,由于部分实验是从实际的业务数据得到的结论,所以可能并不是完全适用于别的数据集,domain不同对应的方法也不尽相同。

本文只是建议和参考,不能盲目的跟从。imagenet数据集的场景大部分是每个图片里面都会包含一个物体,也就是有主体存在的,笔者这边的业务数据的场景很多是理解性的,更加抽象,也更难。

3 Bag of Tricks

3.1 数据增强

  • 朴素数据增强

通用且常用的数据增强有random flipcolorjitterrandom crop,基本上可以适用于任意的数据集,colorjitter注意一点是一般不给hue赋值。

  • RandAug

AutoAug系列之RandAug,相比autoaug的是和否的搜索策略,randaug通过概率的方法来进行搜索,对于大数据集的增益更强,迁移能力更好。实际使用的时候,直接用搜索好的imagnet的策略即可。

  • mixup & cutmix

mixup和cutmix均在imagenet上有着不错的提升,实际使用发现,cutmix相比mixup的通用性更强,业务数据上mixup几乎没有任何的提升,cutmix会提高一点点。不过两者都会带来训练时间的开销, 因为都会导致简单的样本变难,需要更多的iter次数来update,除非0.1%的提升都很重要,不然个人觉得收益不高。在物体识别上,两者可以一起使用。公式如下:

  • gaussianblur和gray这些方法,除非是数据集有这样的数据,不然实际意义不大,用不用都没啥影响。

实验结论:

  • 20% imagenet数据集 & CMT-tiny

  • 业务数据上(ResNet50) autoaug&randaug没有任何的提升(主要问题还是domain不同,搜出来的不适用),cutmix提升很小(适用于物体而不是理解)。

3.2 学习率衰减

退火方法常用于图像复原等用于L1损失的算法,有着不错的性能表现。

个人常用的方法就是cosinedecay,比较喜欢最后的acc曲线像一条"穿天猴", 不过要相对多训练几k个iter,cosinedecay在最后的acc上升的比较快,前期的会比较缓慢。

3.3 跨卡同步bn&梯度累加

这两个方法均是针对卡的显存比较小,batchsize小(batchszie总数小于32)的情况。

  • SyncBN

虽然笔者在训练的时候采用的是ddp,实际上就是数据并行训练,每个卡的batchnorm只会更新自己的数据,那么实际上得到的running_mean和running_std只是局部的而不是全局的。

如果bs比较大,那么可以认为局部和全局的是同分布的,如果bs比较小,那么会存在偏差。

所以需要SyncBN同步一下mean和std以及后向的更新。

  • GradAccumulate

    梯度累加和同步BN机制并不相同,也并不冲突,同步BN可以用于任意的bs情况,只是大的bs下没必要用。

    跨卡bn则是为了解决小bs的问题所带来的性能问题,通过loss.backward的累加梯度来达到增大bs的效果,由于bn的存在只能近似不是完全等价。代码如下:

 for idx, (images, target) in enumerate(train_loader):images = images.cuda()target = target.cuda()outputs = model(images)losses = criterion(outputs, target)loss = loss/accumulation_steps
loss.backward()
if((i+1)%accumulation_steps) == 0:
optimizer.step()
optimizer.zero_grad()
```backward```是bp以及保存梯度,```optimizer.step```是更新weights,由于accumulation_steps,所以需要增加训练的迭代次数,也就是相应的训练更多的epoch。

3.4 标签平滑

LabelSmooth目前应该算是最通用的技术了

优点如下:

  • 可以缓解训练数据中错误标签的影响;

  • 防止模型过于自信,充当正则,提升泛化性。

但是有个缺点,使用LS后,输出的概率值会偏小一些,这会使得如果需要考虑recall和precision,卡阈值需要更加精细。

代码如下:

class LabelSmoothingCrossEntropy(nn.Module):"""NLL loss with label smoothing."""def __init__(self, smoothing=0.1):"""Constructor for the LabelSmoothing module.:param smoothing: label smoothing factor"""super(LabelSmoothingCrossEntropy, self).__init__()assert smoothing < 1.0self.smoothing = smoothingself.confidence = 1. - smoothingdef forward(self, x, target):logprobs = F.log_softmax(x, dim=-1)nll_loss = -logprobs.gather(dim=-1, index=target.unsqueeze(1))nll_loss = nll_loss.squeeze(1)smooth_loss = -logprobs.mean(dim=-1)loss = self.confidence * nll_loss + self.smoothing * smooth_lossreturn loss.mean()

4 ResNet50-vd

ResNet50vd是由张航等人所提出的,相比于ResNet50,改进点如下:

  1. 头部的conv7x7改进为3个conv3x3,直接使用7x7会损失比较多的信息,用多个3x3来缓解。

  2. 每个stage的downsample,由(1x1 s2)->(3x3)->(1x1)修改为(1x1)->(3x3 s2)->(1x1), 同时修改shortcut从(1x1 s2)avgpool(2) + (1x1)。1x1+s2会造成信息损失,所以用3x3和avgpool来缓解。

实验结论:

模型数据epochtrickacc@top-1
R50-vdimagenet1k300aug+mixup+cosine+ls78.25%

上面的精度是笔者自己跑出来的比paper中的要低一些,不过paper里面用了蒸馏,相比于R50,提升了将近2个点,推理速度和FLOPs几乎没有影响,所以直接用这个来替换R50了,个人感觉还算不错,最近的业务模型都在用这个。

代码和权重在git上,可以自行取用,ResNet50vd-pytorch。

5 结论

  • LabelSmooth, CosineLR都可以用做是通用trick不依赖数据场景。

  • Mixup&cutmix,对数据场景有一定的依赖性,需要多次实验。

  • AutoAug,如果有能力去搜的话,就不用看笔者写的了,用就vans了。不具备搜的条件的话,如果domain和imagenet相差很多,那考虑用一下randaug,如果没效果,autoaug这个系列可以放弃。

  • bs比较小的情况,可以试试Sycnbn和梯度累加,要适当的增加迭代次数。

6 结束语

本文是提升分类模型acc系列的第二篇,后续会讲解一些通用的trick和数据处理的方法,敬请关注。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

这篇关于GiantPandaCV | 提升分类模型acc(二):图像分类技巧实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055396

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

电脑win32spl.dll文件丢失咋办? win32spl.dll丢失无法连接打印机修复技巧

《电脑win32spl.dll文件丢失咋办?win32spl.dll丢失无法连接打印机修复技巧》电脑突然提示win32spl.dll文件丢失,打印机死活连不上,今天就来给大家详细讲解一下这个问题的解... 不知道大家在使用电脑的时候是否遇到过关于win32spl.dll文件丢失的问题,win32spl.dl

Python实战之屏幕录制功能的实现

《Python实战之屏幕录制功能的实现》屏幕录制,即屏幕捕获,是指将计算机屏幕上的活动记录下来,生成视频文件,本文主要为大家介绍了如何使用Python实现这一功能,希望对大家有所帮助... 目录屏幕录制原理图像捕获音频捕获编码压缩输出保存完整的屏幕录制工具高级功能实时预览增加水印多平台支持屏幕录制原理屏幕

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2