本文主要是介绍明厨亮灶厨师帽佩戴检测的难点与优化方式 Yolov5+bytetrack,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
随着国家一系列食品安全政策的出台,厨房的安全卫生问题逐渐被人们重视。其中,工作人员是否佩戴厨师帽是很关键的一环。人们希望能通过一种方式实现自动化的检测,但目前市场上大部分“明厨亮灶系统”或“未佩戴厨师帽检测系统”都无法满足用户的真实场景需求。在实际使用的时候会出现大量的误报、漏报等问题。那到底在未佩戴厨师帽行为识别算法上到底有什么难点?该如何解决呢?
算法难点
目前,未佩戴厨师帽检测算法的核心问题为召回率与准确率不足,其难点主要分为以下两个方面。
难点一:厨房场景复杂、空间受限、人体目标容易被遮挡
受到厨房空间、摄像头安装角度、人员密集等条件影响,人体目标被部分或严重遮挡以及厨师人员低头造成厨师帽特征信息丢失,只有少部分数据或者无数据可供神经网络学习。由于遮挡数据的多样性与复杂性,模型只能学习到厨师帽的局部特征,容易造成过拟合,从而引发漏报或误报问题。
如上图所示,由于遮挡问题造成无法看到人体目标,只有局部厨师帽特征信息在画面中,导致影响特征网络的特征提取,从而造成漏报。
难点二:摄像头安装位置角度导致厨师帽目标过小
当厨房工作人员距离摄像头较远时,无法看清厨师帽的细粒度特征,造成误识别。下图中可以看到,佩戴厨师帽的人员,距离摄像头距离过远,且画面光线昏暗,造成无法精准做到厨师帽识别效果。
优化方案
针对上面提到的难点,小编的优化方式是采用目标检测技术(Yolov5)+多目标追踪技术(bytetrack)。
一、YOLOv5输入端
Mosaic数据增强
Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。Mosaic是参考2019年底提出的CutMix数据增强的方式,但CutMix只使用了两张图片进行拼接,而Mosaic数据增强则采用了4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接,使模型在更小的范围内识别目标。。
Mosaic数据增强的主要步骤为:
- 随机选取图片拼接基准点坐标(xc,yc),随机选取四张图片。
- 四张图片根据基准点,分别经过尺寸调整和比例缩放后,放置在指定尺寸的大图的左上,右上,左下,右下位置。
- 根据每张图片的尺寸变换方式,将映射关系对应到图片标签上。
- 依据指定的横纵坐标,对大图进行拼接。处理超过边界的检测框坐标。
采用Mosaic数据增强的优点:
- 丰富数据集: 随机使用4张图像,随机缩放后随机拼接,增加很多小目标,大大增加了数据多样性。
- 增强模型鲁棒性: 混合四张具有不同语义信息的图片,可以让模型检测超出常规语境的目标。
- 加强批归一化(Batch Normalization)的效果: 当模型设置 BN 操作后,训练时会尽可能增大批样本总量(BatchSize),因为 BN 原理为计算每一个特征层的均值和方差,如果批样本总量越大,那么 BN 计算的均值和方差就越接近于整个数据集的均值和方差,效果越好。
- 有利于提升小目标检测性能: Mosaic 数据增强图像由四张原始图像拼接而成,这样每张图像会有更大概率包含小目标,从而提升了模型的检测能力。
自适应锚框计算的具体过程:
- 获取厨师帽数据集中所有目标的宽和高。
- 将每张图片中按照等比例缩放的方式到 resize 指定大小,这里保证宽高中的最大值符合指定大小。
- 将 bboxes 从相对坐标改成绝对坐标,这里乘以的是缩放后的宽高。
- 筛选 bboxes,保留宽高都大于等于两个像素的 bboxes。
- 使用 k-means 聚类三方得到n个 anchors,与YOLOv3、YOLOv4 操作一样。
- 使用遗传算法随机对 anchors 的宽高进行变异。倘若变异后的效果好,就将变异后的结果赋值给 anchors;如果变异后效果变差就跳过,默认变异1000次。这里是使用 anchor_fitness 方法计算得到的适应度 fitness,然后再进行评估。
CSP结构:
以YOLOv5s网络为例,CSP1_ X结构应用于Backbone主干网络,而CSP2_X结构则应用于Neck中。下图清楚的表示出来了:
二、多目标追踪技术(bytetrack)
BYTE 数据关联方法具体的流程如下:
- 根据检测框得分,把检测框分为高分框和低分框,分开处理,第一次使用高分框和之前的跟踪轨迹进行匹配;
- 第二次使用低分框和第一次没有匹配上高分框的跟踪轨迹(例如在当前帧受到严重遮挡导致得分下降的物体)进行匹配;
- 对于没有匹配上跟踪轨迹,得分又足够高的检测框,我们对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹,我们会保留30帧,在其再次出现时再进行匹配;
- BYTE 的工作原理可以理解为,遮挡往往伴随着检测得分由高到低的缓慢降低:被遮挡物体在被遮挡之前是可视物体,检测分数较高,建立轨迹;当物体被遮挡时,通过检测框与轨迹的位置重合度就能把遮挡的物体从低分框中挖掘出来,保持轨迹的连贯性。
最后实现流程
首先通过目标检测厨房工作人员,实时检测人体目标以及厨师帽识别目标,并对人体目标采用跟踪技术,期间选取人体质量最优的人体目标进行行为判定。
这篇关于明厨亮灶厨师帽佩戴检测的难点与优化方式 Yolov5+bytetrack的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!