大杀器!攻克目标检测难点秘籍四,数据增强大法

2023-12-18 12:58

本文主要是介绍大杀器!攻克目标检测难点秘籍四,数据增强大法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI算法修炼营”,选择加星标或“置顶”

标题以下,全是干货

前面的话

在前面的秘籍一:模型加速之轻量化网络秘籍二:非极大抑制算法和回归损失优化之路秘籍三:多尺度检测中,我们主要关注了轻量化网络,非极大值抑制算法、回归损失优化以及目标检测中的小目标检测。

但是以笔者参加计算机视觉相关竞赛的经验(接下来会更新相关竞赛系列)来看,数据增强和模型融合是比赛涨分的大杀器,好的数据增强可以有效地抑制模型的过拟合,同时对于小样本量的数据集的训练往往有理想的效果。

数据增强(Data Augmentation)是一种通过让有限的数据产生更多的等价数据来人工扩展训练数据集的技术。它是克服训练数据不足的有效手段,目前在深度学习的各个领域中应用广泛。但是由于生成的数据与真实数据之间的差异,也不可避免地带来了噪声问题。

本文主要介绍秘籍四:数据增强。

秘籍四. 数据增强

参考文章《A survey on Image Data Augmentation for Deep Learning》:https://link.springer.com/article/10.1186/s40537-019-0197-0

(向公众号发送:数据增强,即可获得论文原文)

参考工程代码(imgaug库):https://github.com/aleju/imgaug

深度神经网络在许多任务中表现良好,但这些网络通常需要大量数据才能避免过度拟合。遗憾的是,许多场景无法获得大量数据,例如医学图像分析。数据增强技术的存在是为了解决这个问题,这是针对有限数据问题的解决方案。数据增强一套技术,可提高训练数据集的大小和质量,以便您可以使用它们来构建更好的深度学习模型。 

数据增强从问题的根源(训练数据集)着手过度拟合。这是在可以通过扩充从原始数据集中提取更多信息的假设下完成的。这些扩充通过数据扭曲或过采样人为地增加了训练数据集的大小。

数据扭曲增强可以转换现有图像,从而保留其标签。这包括几何和颜色转换,随机擦除,对抗训练和神经样式转换等增强功能。

过度采样增强会创建综合实例,并将其添加到训练集中。这包括混合图像,特征空间增强生成对抗网络(GAN)。过采样和数据扭曲增强不会形成相互排斥的二分法。例如,GAN样本可以通过随机裁剪进行堆叠以进一步扩大数据集。

目前,数据增强主要方法有:基于基本图像处理的数据增强、基于几何与光度转换的数据增强、基于深度学习的数据增强。下面将详细介绍:

1 基于基本图像处理的数据增强

  • 几何变换(Geometric Transformations):由于训练集与测试集合中可能存在潜在的位置偏差,使得模型在测试集中很难达到训练集中的效果,几何变换可以有效地克服训练数据中存在的位置偏差,而且易于实现,许多图像处理库都包含这个功能。但是,为每个非安全数据扩充构建精炼标签是一个计算量巨大的过程。由于为扩充后数据构建精炼标签的挑战,因此必须考虑扩充的“安全性”。

    几何转换的缺点:占用额外的内存,转换操作消耗计算成本和额外的训练时间。所以,必须手动观察某些几何变换,例如平移或随机裁剪,以确保它们没有改变图像的标签。

  • 翻转变换(Flipping):通常是关于水平或者竖直的轴进行图像翻转操作,这种扩充是最容易实现的扩充,并且已经证明对ImageNet数据集有效。

  • 裁剪(Cropping):如果输入数据集合的大小是变化的,裁剪可以作为数据预处理的一个手段,通过裁剪图像的中央色块,可以得到新的数据。在实际使用过程之中,这些数据增强算法不是只使用一种,而是使用一套数据增强策略,在AutoAugment这篇文章中,作者尝试让模型自动选择数据增强策略。

  • 旋转 / 反射变换(Rotation/Reflection):选择一个角度,左右旋转图像,可以改变图像内容朝向。关于旋转角度需要慎重考虑,角度太大或者太小都不合适,适宜的角度是1度 到 20度。

  • 缩放变换(Zoom):图像按照一定的比例进行放大和缩小并不改变图像中的内容,可以增加模型的泛化性能。

  • 移动(Translation):向左,向右,向上或向下移动图像可以避免数据中的位置偏差,比如在人脸识别数据集合中,如果所有图像都居中,使用这种数据增强方法可以避免可能出现的位置偏差导致的错误。

  • 噪声注入(Noise Injection):从高斯分布中采样出的随机值矩阵加入到图像的RGB像素中,通过向图像添加噪点可以帮助CNN学习更强大的功能。

  • 色彩空间(Color Space):图片在输入计算机之前,通常会被编码为张量(高度×宽度×颜色通道),所以可以在色彩通道空间进行数据增强,比如将某种颜色通道关闭,或者改变亮度值,或者更改图片的颜色直方图信息。目前色彩空间主要有:RGB颜色空间、CMY/CMYK颜色空间、HSV/HSB颜色空间、HSI/HSL颜色空间、Lab颜色空间、YUV/YCbCr颜色空间。

  • 色彩空间转换(Color space transformations):照明偏差是图像识别问题中最常见的挑战之一。因此,色彩空间转换(也称为光度转换)的有效性在概念上相当直观。

    与几何变换类似,颜色空间变换的缺点是增加了内存,变换成本和训练时间。另外,颜色转换可能会丢弃重要的颜色信息,因此并不总是保留标签的转换。例如,当减小图像的像素值以模拟更暗的环境时,可能无法看到图像中的对象。

2 基于几何和光度转换的数据增强

  • 内核过滤器(Kernel Filters):内核滤镜是在图像处理中一种非常流行的技术,比如锐化和模糊。将特定功能的内核滤镜与图像进行卷积操作,就可以得到增强后的数据。直观上,数据增强生成的图像可能会使得模型面对这种类型的图像具有更高的鲁棒性。此技术的缺点是,它与CNN的内部机制非常相似,可以将内核过滤器更好地实现为网络层,而不是通过数据增强对数据集进行附加。

  • 混合图像(Mix):通过平均图像像素值将图像混合在一起是一种非常违反直觉的数据增强方法。对于人来说,混合图像生成的数据似乎没有意义。从混合图像中发现的性能提升非常难以理解或解释。对此的一种可能解释是,数据集大小的增加导致了诸如线和边之类的低级特征的更可靠表示。虽然这种方法缺乏可解释性,但是作为一种简单有效的数据增强算法,有一系列的工作进行相关的研究。例如,Inoue在图像每个像素点混合像素值来混合图像,Summers和Dinneen又尝试以非线性的方法来混合图像,Takahashi和Matsubara通过随机图像裁剪和拼接来混合图像,以及后来的mixup方法均取得了不错的成果。

  • 随机擦除(Random Erasing):随机擦除是Zhong等人开发的数据增强技术,旨在通过更改输入空间来直接防止过拟合。他们受到Dropout机制的启发,随机选取图片中的一部分,将这部分图片删除,这项技术可以提高模型在图片被部分遮挡的情况下性能,除此之外还可以确保网络关注整个图像,而不只是其中的一部分。随机擦除的一个缺点是,它并不总是保留标签

3 基于深度学习的数据增强

  • 特征空间增强(Feature Space Augmentation):神经网络可以将图像这种高维向量映射为低维向量,之前讨论的所有图像数据增强方法都应用于输入空间中的图像。现在可以在特征空间进行数据增强操作,例如:SMOTE算法,它是一种流行的增强方法,通过将k个最近的邻居合并以形成新实例来缓解类不平衡问题自动编码器的使用对于在数据上执行特征空间增强特别有用。自动编码器通过使网络的一半(编码器)将图像映射为低维矢量表示来工作,从而使网络的另一半(解码器)可以将这些矢量重新构造回原始图像。但是,特征空间增强的一个缺点是很难解释矢量数据

  • 对抗生成(Adversarial Training):对抗攻击表明,图像表示的健壮性远不及预期的健壮性,Moosavi-Dezfooli等人充分证明了这一点。对抗生成可以改善学习的决策边界中的薄弱环节,提高模型的鲁棒性。

  • 基于GAN的数据增强(GAN-based Data Augmentation):使用 GAN 生成模型来生成更多的数据,可用作解决类别不平衡问题的过采样技术。

  • 神经风格转换(Neural Style Transfer):通过神经网络风格迁移来生成不同风格的数据,防止模型过拟合。

4 相关实践工作

下面将总结目前为止,我们在实践过程中遇到的数据增强工作,前面提到的GAN_based等方法,我们在实际应用中并未涉及到,暂时便不做归纳总结,以后若有需要再添加上,读者可自行参阅前面分享的综述文章。感谢chenyh作者的知乎文章:CNN中的数据增强简单总结。

(文章链接地址:https://zhuanlan.zhihu.com/p/104992391?utm_source=wechat_session&utm_medium=social&utm_oi=1175137573872345088)

一、SSD数据预处理

参考文章:https://blog.csdn.net/Dlyldxwl/article/details/88355465

SSD做了丰富的数据增强策略,这部分为模型的mAP带来了8.8%的提升,尤其是对于小物体和遮挡物体等难点,数据增强起到了非常重要的作用。SSD的数据增强整体流程如下图所示,总体上包括光学变换与几何变换两个过程。

 

光学变换包括亮度和对比度等随机调整,可以调整图像像素值的大小,并不会改变图像尺寸;几何变换包括扩展、裁剪和镜像等操作,主要负责进行尺度上的变化,最后再进行去均值操作。大部分操作都是随机的过程,尽可能保证数据的丰富性。

二、生成遮挡类方法

这类方法通过生成mask,然后遮挡原图片部分区域,并不改变label 进行训练。

当目标有识别力的部位被遮挡后,网络会被迫使根据遗留的部分去寻找其它关键性部位,从而提升模型性能。

(1)Cutout 算法(随机将一块或者多块位置置为黑)[1] 和 Random Erase 算法[2]是比较类似的方法,如下图所示。

这类方法要注意的是,生成的mask区域有可能会完全覆盖掉目标,这种情况可能会给模型训练带来坏处。

Cutout代码:https://github.com/uoguelph-mlrg/Cutout

Random-Erasing代码:https://github.com/zhunzhong07/Random-Erasing

(2)HaS算法[3] 通过将图片划分为S*S个格子,在每个epoch内,对每个格子以一定概率随机进行遮挡,如下图。相较于Cutout,HaS生成多个遮挡块,产生更多类型的遮挡形式,对遮挡的鲁棒性更强。

HaS代码:https://github.com/kkanshul/Hide-and-Seek

(3)GridMask算法 [4]通过定量计算生成多个遮挡块来提升模型性能,如下图。这样做一可以避免类似于Cutout生成一个大的遮挡块从而完全覆盖掉目标,二相对于HaS可以更好的控制原图片中遮挡与保留的比例。GridMask 在多个task和benchmark上都表现出了SOTA的水平。

GridMask代码:https://github.com/akuxcw/GridMask

三、图片混合类方法

这类方法中最出名的便数Mixup [5],通过线性叠加两张图片生成新的图片,对应label也进行线性叠加用以训练,多个benchmark上证明了Mixup 的有效性。

同期还有个SamplePairing [6]工作,直接对两幅图片像素相加求平均,监督的label不变。训练时间歇使用SamplePairing,待精度稳定后,停止使用SamplePairing。本质上来说,SamplePairing和Mixup区别还是比较大的,Mixup是在训练集不涵盖的空间用线性关系去约束模型,SamplePairing则更像是人为引入错误样本,相当于定期添加噪声来防止过拟合。遗憾的是,SamplePairing没有被ICLR2018录用。

基于Mixup,后续涌现出一些很棒的工作。Mixmatch [7]将Mixup引入到半监督学习中,仅用少量的标记数据,就使半监督学习的预测精度逼近监督学习。Manifold mixup [8]通过对Hidden States进行插值,取得了优于Mixup的效果。

CutMix [9]可以说是图片混合类工作,也可以说是生成遮挡类工作。不同于遮挡类工作一般使用零像素黑布来遮挡图片,CutMix使用另一张图片的一个区域来覆盖遮挡区域。因此CutMix可以看成Cutout和Mixup的结合体,既使用了遮挡的思想,又使用了mixup的逐像素线性叠加,当然此处的线性矩阵只含有0,1两个元素。生成图片的标签,和mixup一样,也使用线性叠加的label。CutMix 在多个task和benchmark上也都展现了杰出的效果。CutMix示意图如下图所示。

Mixup代码:https://github.com/hongyi-zhang/mixup

Manifold mixup代码:https://github.com/vikasverma1077/manifold_mixup

CutMix代码:https://github.com/clovaai/CutMix-PyTorch

四、搜索类方法

这一块的工作目前还算比较多。推荐Quoc V. Le大神的两篇工作[10]和 [11]。这两篇工作比较类似,[10]主要用于分类任务,[11]则是用在目标检测中。


AutoAugment数据增强policy

变换方法:[10]定义了16中图像变换操作,包括PIL库中提供的14个操作和Cutout和SamplePairing。[11]从 Color operations、 Geometric operations和 Bounding box operations三个角度定义了22中图像变换操作。

搜索空间:预测的data aug policy共包含K个sub-policy,每个sub-policy包含N个图像变换方法,每个方法有两个属性:概率P和幅度magnitude。其中P离散为M个值,magnitude离散为L个值。因此[10][11]搜索空间分别为  。

[10]和[11]均使用了常见的 RNN 控制器+RL的方法,proximal policy optimization (PPO) 算法。

除了对train data进行aug,还有很多通过学习generator来生成data达到aug的搜索工作,这里不展开讨论,具体可参见论文。

AutoAugment代码链接:https://github.com/tensorflow/models/tree/master/research/autoaugment

文献[11]代码链接:
https://github.com/tensorflow/tpu/tree/master/models/official/detection

Reference

[1] Terrance Devries and Graham W. Taylor. Improved regularization of convolutional neural networks with cutout. arXiv preprint arXiv:1708.04552(2017).

[2] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. arXiv preprint arXiv:1708.04896(2017).

[3] Krishna Kumar Singh, Hao Yu, Aron Sarmasi, Gautam Pradeep, and Yong Jae Lee. Hide-and-seek: A data aumentation technique for weakly-supervised localization and beyond. arXiv preprint arXiv:1811.02545(2018).

[4] Pengguang Chen, Shu Liu, Hengshuang Zhao and Jiaya Jia. GridMask Data Augmentation. arXiv preprint arXiv:2001.04086(2020).

[5] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin and David Lopez-Paz.mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412(2017).

[6] Hiroshi Inoue. Data Augmentation by Pairing Samples for Images Classification. arXiv preprint arXiv:1801.02929(2018).

[7] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver and Colin Raffel. MixMatch: A Holistic Approach to Semi-Supervised Learning arXiv preprint arXiv:1905.02249(2019).

[8] Vikas Verma, Alex Lamb, Christopher Beckham, Amir Najafi, Ioannis Mitliagkas, David Lopez-Paz and Yoshua Bengio. Manifold Mixup: Better Representations by Interpolating Hidden States.arXiv preprint arXiv:1806.05236(2018).

[9] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe and Youngjoon Yoo. CutMix: Regularization Strategy to Train Strong Classifier with Localizable Features. arXiv preprint arXiv:1905.04899(2019).

[10] Ekin D. Cubuk, Barret Zoph, Dandelion Mané, Vijay Vasudevan and Quoc V. Le. AutoAugment: Learning Augmentation Policies from Data. arXiv preprint arXiv:1805.09501(2018).

[11] Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens and Quoc V. Le. Learning Data Augmentation Strategies for Object Detection. arXiv preprint arXiv:1906.11172(2019).


注意:目标检测系列历史文章

秘籍一:模型加速之轻量化网络

秘籍二:非极大抑制算法和回归损失优化之路

秘籍三:多尺度检测

-END-

扫描个人微信号,

拉你进AI算法修炼营学习交友群。

目标检测、图像分割、自动驾驶、机器人、面试经验

福利满满,名额已不多…

▲长按关注我们

觉得好看对你有帮助,就点个在看吧      

                             

                               

这篇关于大杀器!攻克目标检测难点秘籍四,数据增强大法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/508442

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

三国地理揭秘:为何北伐之路如此艰难,为何诸葛亮无法攻克陇右小城?

俗话说:天时不如地利,不是随便说说,诸葛亮六出祁山,连关中陇右的几座小城都攻不下来,行军山高路险,无法携带和建造攻城器械,是最难的,所以在汉中,无论从哪一方进攻,防守方都是一夫当关,万夫莫开;再加上千里运粮,根本不需要打,司马懿只需要坚守城池拼消耗就能不战而屈人之兵。 另一边,洛阳的虎牢关,一旦突破,洛阳就无险可守,这样的进军路线,才是顺势而为的用兵之道。 读历史的时候我们常常看到某一方势

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X