如何通过理解数据在自定义数据集上逐步提升物体检测模型效果

本文主要是介绍如何通过理解数据在自定义数据集上逐步提升物体检测模型效果,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Tushar Kolhe

编译:ronghuaiyang

导读

以监控摄像头数据集的人体检测模型为例,说明了如何通过对数据的理解来逐步提升模型的效果,不对模型做任何改动,将mAP从0.46提升到了0.79。

介绍

目标检测能够完成许多视觉任务,如实例分割、姿态估计、跟踪和动作识别。这些计算机视觉任务在监控、自动驾驶和视觉问答等领域都有广泛的应用。随着这种广泛的现实应用,目标检测自然成为一个活跃的研究领域。

我们在Fynd的研究团队正在训练一个行人检测模型来提升我们的目标跟踪模型。在本文中,我们将解释我们如何选择一个模型架构,创建一个数据集,并为我们的特定的用例来训练它。

什么是物体检测?

目标检测是一种计算机视觉技术,它允许我们识别和定位图像或视频中的目标。目标检测可以分为两部分:目标定位和目标分类。定位可以理解为预测图像中物体的准确位置(边界框),分类是定义它属于哪个类(人/车/狗等)。

物体检测的方法

有各种各样的方法来解决目标检测任务。我们可以将模型分为三类。

  • 两阶段检测器:模型有两种网络,一个是做区域建议,一个做检测。一些典型的例子是RCNN family。

  • 带anchor的一阶段探测器:这类架构没有单独的区域建议网络,但依赖于预定义的anchor框。我们可以通过YOLO家族来了解这些网络。

  • 单阶段无anchor检测器:这是一个相当新的物体检测方法,这样的网络是端到端可微分的,不依赖于感兴趣的区域(ROI)。而且一次性来预测物体。这是一个非常有趣的方法,它塑造了的新研究的思路。要了解更多可以看看CornerNet或CenterNet。

什么是COCO数据集?

为了比较模型,业界广泛使用了一个称为COCO的公共数据集(Common Objects in Context)。这是一个具有挑战性的数据集,有80个类和超过150万个物体实例,因此这个数据集是初始模型选择的一个非常好的基准。每年都有各种新的和创新的方法出现,并在该任务上竞提升性能。

如何查看性能?

业内提出了评价目标检测的各种指标。其中一些挑战包括:

  • The PASCAL VOC Challenge (Everingham et al. 2010)

  • The COCO Object Detection Challenge (Lin et al. 2014)

  • The Open Images Challenge (Kuznetsova 2018).

要理解这些度量标准,你需要很好地理解一些基本概念,如精度、召回率和IOU。下面是这个公式的一个简短定义。

Average Precision

AP可以定义为插值后的precision-recall曲线下的面积,计算公式如下:

Mean average precision

AP的计算只涉及一个类。然而,在目标检测中,通常有K>1个类。mAP定义为AP在所有K类上的平均值:

实际问题描述

我们的任务是在零售商店的闭路电视视频中检测人的边界框。该模型非常关键,因为跟踪模型依赖于它,检测产生的所有误差都会传播到跟踪模型中。以下是在此类视频中检测的一些主要挑战。

挑战

  • 视角: 闭路电视是顶部安装的,和正常照片的视角不一样。

  • 拥挤: 商店有时会有非常拥挤的场景。

  • 背景很乱: 零售商店有很多的干扰或杂物(对我们的模型来说),比如衣服、货架、人体模型等,这可能会导致误报。

  • 灯光条件:店内的灯光条件与户外摄影不同。

  • 图像质量:来自闭路电视的视频帧有时会很差,还可能包含运动模糊。

构建测试集

我们创建了一个验证集,其中包含来自零售店CCTV视频的视频帧。我们使用person边界框对每帧进行标注,并使用mAP@ 0.50 IOU阈值在整个训练迭代过程中测试模型。

第1个人体检测模型

我们的第一个模型是COCO的预训练的模型,其中“person”是其中一个类。我们在每种方法中筛选出了2个模型,并根据COCO mAP val和推理时间对其进行了评估。

YOLOv5的单阶段特性(快速推理)和在COCO mAP val上的良好性能被我们列入了候选名单。它也有更快的版本,如YOLOv5m和YOLOv5s。

YOLOv5

YOLO家族属于单阶段物体探测器,不像RCNN家族,它没有一个单独的区域建议网络(RPN),并依赖于不同尺度的anchor。整体结构架构可分为三部分:backbone, neck和head。使用CSP (Cross Stage Partial Networks)作为backbone从输入图像中提取特征。PANet用作收集特征金字塔的neck,head是使用特征上的anchor检测物体的最终检测层。

YOLO架构使用的激活功能是谷歌Brains在2017年提出的Hard Swish的变体,它看起来和ReLU非常相似,但不像ReLU,它在x=0附近是平滑的。

损失函数用的是二元交叉熵。

性能

0.48 mAP @ 0.50 IOU (在我们自己的测试集上)

分析

这个开箱即用的模型不是很好,因为模型是在包含一些不必要的类的COCO数据集上训练的。包含人的实例的图像数量较少,人群密度也较低。此外,包含人的实例的图像分布与CCTV视频帧中的非常不同。

结论

我们需要更多的数据来训练模型,使其包含更多拥挤的场景,并使摄像机的视角在45⁰- 60⁰之间(和CCTV类似)。

收集公共数据

我们的下一步是收集包含人边界框的公开数据集。有大量的人检测的数据集,但我们需要一些关于数据集的额外信息,如视角,图像质量,人的密度和背景,以捕获数据集分布信息。

我们可以看到满足我们确切需求的数据集并不是很多,但是我们仍然可以使用这些数据集,因为具备人的边界框的基本要求已经得到了满足。下载所有数据集后,我们将其转换为常见的COCO格式用于检测。

第2个人体检测模型

我们用所有收集到的公共数据集训练模型。

训练迭代 2:

  • Backbone: YOLOv5x

  • 模型初始化:COCO预训练权重

  • Epochs: 10 epochs

性能

0.65 mAP @ 0.50 IOU

分析

随着数据集的增加,模型性能显著提高。一些数据集有高拥挤的场景,满足我们的一个要求,和一些包含顶部的相机视角,满足另一个要求。

总结

虽然模型的性能有所提高,但有些数据集是视频序列,而且在某些情况下背景仍然是静态的,可能会导致过拟合。很少量的数据集中有非常小的人类,这使得任务很难学习。

清洗数据

下一步是清理数据。我们从训练和验证集中过滤出造成损失最多的图像,或者我们可以说是那些mAP非常小的图像。我们选择了0.3 mAP阈值并对图像进行可视化。我们从数据集中过滤了三种类型的用例。

  • 标签错误的边框

  • 图像包含非常小的边框或太多太拥挤

  • 重复的或近似重复的帧

为了去除重复的帧,我们只从视频序列中选择稀疏的帧。

第3个人体检测模型

有了清理和整理之后的数据集,我们就可以开始第三次迭代了

训练迭代 3:

  • Backbone: YOLOv5x

  • 模型初始化:COCO预训练权重

  • Epochs: ~100 epochs

性能

0.69 mAP @ 0.50 IOU

分析

将未清理的数据从训练和验证集中删除后,模型性能略有改善。

总结

数据集被清理,可以看到性能的改进。我们可以得出结论,进一步改进数据集可以提高模型性能。为了提高性能,我们需要确保数据集包含与测试用例相似的图像。我们处理了人群情况和一些视角情况,但大多数数据都是向前的视角。

数据增强

我们已经列出了在现实案例中检测时将面临的一些挑战,但是收集的数据集分布不同。因此,我们使用了一些数据增强技术,使训练分布更接近生产用例或测试分布。

下面是我们希望对数据集进行的扩充。

  • 视角- 透视变换

  • 光照条件- 亮度 - 对比度

  • 图像质量- 噪声 - 图像压缩 - 运动模糊

通过将所有这些增强加在一起,我们可以将公共数据分布转换为更接近生产分布的数据。我们可以看到从下面的图像和比较原始和转换后的图像。

所有这些增强都是通过使用“albumentation”来实现的,“albumentation”是一个很容易与PyTorch数据转换集成的python库。它还有一个demo应用,我们使用该应用为不同的方法设置增强参数。在库中还有许多可用于其他用例的扩展。

第4个人体检测模型

现在有了转换后的数据集,我们就可以进行第四个迭代了

训练迭代 4:

  • Backbone: YOLOv5x

  • 模型初始化:来自第3个迭代的模型权重

  • Epochs: ~100 epochs

性能

0.77 mAP @ 0.50 IOU

分析

![](How to boost object detection accuracy by understanding data.assets/1_H3gjYDGFDHq5aEk85dSBUw.png)

YOLO v5x 在自定义的测试集上使用TIDE进行分析的结果,mAP @0.5: 0.77

性能提高了近8%,该模型能够预测大多数情况,并在摄像机视角上进行了泛化。由于背景杂波和遮挡的影响,视频序列中仍然存在误报和漏报的现象。

结论

我们尝试收集数据集并覆盖任务中几乎所有的挑战,但仍有一个挑战阻碍了我们的模型性能。我们需要收集包含这些用例的数据。

创建自定义的标注

通过数据增强,我们创建了一些真实的案例,但我们的数据在图像背景方面仍然缺乏多样性。对于一个零售商店来说,框架背景充满了杂乱、人体模型或衣服架子,这会导致误报,大遮挡会导致漏报。为了增加多样性,我们放弃了谷歌,我们从商店中收集闭路电视录像,并手工标注图像。首先,我们将迭代4中的所有图像通过模型进行预测,并创建自动标签,然后使用开源标注工具CVAT (Computer Vision and annotation tool)进一步的修正标注。

最终的人体检测模型

我们将自定义的存储图像添加到之前的数据集中,并为最后的迭代训练我们的模型。我们最终的数据集分布是这样的。

最终训练集的数据分布

训练迭代 5:

  • Backbone: YOLOv5x

  • 模型初始化: 从第4个迭代的权重开始

  • Epochs: ~100 epochs

性能

0.79 mAP @ 0.50 IOU

分析

![](How to boost object detection accuracy by understanding data.assets/1_1FhHmPPBpWHwn04_m6jf1Q.png)

YOLO v5x 在自定义的测试集上使用TIDE进行分析的结果,mAP @0.5: 0.79

模型的性能显示出~ 0.2%的正增长。从TIDE 分析中可以看出,假阳性对错误的贡献减小了。

结论

额外的数据有助于使模型对背景干扰更健壮,但是收集的数据量仍然比总体数据集的大小少得多,并且模型仍然有一些false negatives。当对随机图像进行测试时,该模型能够很好地泛化。

过程概述

我们从模型选择开始,以COCO mAP作为基准,我们选出了一些模型。此外,我们考虑了推理时间和模型架构,并选择YOLO v5。我们收集并清理了各种公开可用的数据集,并使用各种数据增强技术将其转换为我们的用例。最后,我们从头收集图像,并在手工标注之后将它们添加到数据集中。我们最终的模型是在这个经过整理的数据集上训练的,能够从 0.46 mAP @ IOU0.5改进到0.79 mAP @ IOU 0.5

总结

通过根据用例对数据集进行处理,我们将物体检测模型改进了约20%。该模型在mAP和延迟方面仍有改进空间。选择的超参数是YOLO v5默认给出的,我们可以使用超参数搜索库,如optuna对它们进行优化。当训练分布和测试分布之间存在差异时,域适应是另一种可以使用的技术。此外,这样的情况可能需要使用额外数据集进行连续的训练循环,以确保模型的持续改进。

—END—

英文原文:

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

这篇关于如何通过理解数据在自定义数据集上逐步提升物体检测模型效果的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080711

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

使用C#如何创建人名或其他物体随机分组

《使用C#如何创建人名或其他物体随机分组》文章描述了一个随机分配人员到多个团队的代码示例,包括将人员列表随机化并根据组数分配到不同组,最后按组号排序显示结果... 目录C#创建人名或其他物体随机分组此示例使用以下代码将人员分配到组代码首先将lstPeople ListBox总结C#创建人名或其他物体随机分组

React实现原生APP切换效果

《React实现原生APP切换效果》最近需要使用Hybrid的方式开发一个APP,交互和原生APP相似并且需要IM通信,本文给大家介绍了使用React实现原生APP切换效果,文中通过代码示例讲解的非常... 目录背景需求概览技术栈实现步骤根据 react-router-dom 文档配置好路由添加过渡动画使用

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt