目标检测(五)之YOLOv1

2024-02-01 06:58
文章标签 目标 检测 yolov1

本文主要是介绍目标检测(五)之YOLOv1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、论文相关信息
    •   1.论文题目
    •   2.论文时间
    •   3.论文文献
    •   4.论文源码
  • 二、论文背景及简介
  • 三、知识储备
    •    1、YOLOv1的思想
  • 四、test阶段
  • 五、train阶段
    •   1、Loss的确定
  • 六、实验结果
  • 七、论文细节与思考
    •   1、YOLO相比于RCNN系列对背景分类错误的更少,可以配合Faster RCNN一起使用
  • 八、论文优缺点
    •   优点
    •   缺点

一、论文相关信息

  1.论文题目

    You Only Look Once

  2.论文时间

    2015年

  3.论文文献

     论文文献

  4.论文源码

     pytroch

二、论文背景及简介

    2015年,Fast RCNN改正了RCNN,大幅度提高了精度和速度,尽管如此,Fast RCNN也只能做到0.5 FPS,难以用在实时检测中。当时,目标检测实时检测领域,SOTA为DPM,可以达到30 FPS、mAP 26.1 ( 100 FPS、mAP为16.0),精度太低。这是,YOLO出世,将目标检测视为回归问题,借助一个卷积网络,直接得到一张图片中所有的目标种类以及定位,end to end的优化方法,使得网络达到了 45 FPS、 mAP 63.4,且Fast YOLO版本达到了155 FPS、mAP 52.7。这虽然达不到Fast RCNN的精度,但可以实现实时检测,且作者通过比较,测得Faster RCNN在18 FPS时,精度只有62.1。

三、知识储备

   1、YOLOv1的思想

     YOLO v1使用一个神经网络就获得所有的目标以及定位信息,他是怎么做到的呢?
     YOLO 将输入图片划分为S * S个栅格,如果一个物体的中心落到某个栅格中,那么这个栅格就负责检测这个物体。作者假设每个栅格可以检测B个物体。一个栅格需要预测的信息如下:

  • B个检测框,每个检测狂包含物体框中心相对其所在网格单元格边界的偏移(一般是相对于单元格左上角坐标点的位置偏移,以下用x,y表示)和检测框真实宽高相对于整幅图像的比例(注意这里w,h不是实际的边界框宽和高)且x,y,w,h,confidence都被限制在区间[0,1]。
  • 每个框的Confidence,这个confidence代表了预测框含有目标的置信度和这个预测框预测的有多准2重。信息置信度confidence值只有2种情况,要么为0(边界框中不含目标,P(object)=0),要么为预测框与标注框的IOU,因为P(Object)只有0或1,两种可能,有目标的中心落在格子内,那么P(object)=1,否则为0,不存在(0,1)区间中的值。在这里插入图片描述
  • 每个格子预测一共C个类别的条件概率分数,并且这个分数和物体框是不相关的,只是基于这个格子。在这里插入图片描述

     那么网络就会输出一个 S * S * (5 * B + C)的一个矩阵。
     作者通过confidence * 条件概率得到每一个类的置信度。
     经过NMS后,得到最终的结果

在这里插入图片描述在这里插入图片描述

四、test阶段

在这里插入图片描述

假设在论文实现的模型中,S=7, B = 2, C = 20,因此最后的输出为7 * 7 * (5 * 2 + 20),一些细节将会在下文进行介绍

  • 输入一张图片
  • 经过一个卷积网络的到7 * 7 * 30的矩阵
  • 将该矩阵检测出来的目标框放入NMS中,得到最后的结果

五、train阶段

YOLOv1 为 one-stage模型,一步优化即可,十分简单。
下文将会对其细节进行讲解

  1、Loss的确定

     损失函数的设计目标就是让坐标(x,y,w,h),confidence,classification 这个三个方面达到很好的平衡。
    sum-squared error loss 会让所有的loss的加权一致,因此简单的全部采用了sum-squared error loss来做这件事会有以下不足:

  • 会使分类和定位的Loss权重相等,但不包含物体的框太多,不带物体的框的confidence = 0,对网络loss的贡献远大于带物体的检测框,这会使网络发散。作者给定位和分类分配了权重,其中给定位权重为5,分类权重为0.5在这里插入图片描述
  • 会给大box和小box分配相同的权重,因为我们知道小box对小的偏差更加敏感,偏离一点会使结果影响更多,因此应该赋予更大的加权。作者通过在计算loss时使用w,h的平方根来解决这个问题。
         因此最后的loss为:(仔细分析还是可以看的出来的)
    在这里插入图片描述

六、实验结果

在这里插入图片描述

七、论文细节与思考

  1、YOLO相比于RCNN系列对背景分类错误的更少,可以配合Faster RCNN一起使用

     因为RCNN只能看得到图片的一部分,不能看到更大的上下文,因此相比于YOLO,会在背景上有更多的错误。因此在Faster RCNN预测出目标框后,在经过YOLO可以减少Faster RCNN的错误率,作者通过这个方法,提高了Faster RCNN的3.2的精度

八、论文优缺点

  优点

  • YOLO更加快,可以应用于实时场景,可以达到45FPS
  • YOLO可以鲁棒性更好,通用性强,对其他不相关的物体预测依旧很好。
  • 背景误检率低。YOLO在训练和推理过程中能‘看到’整张图像的整体信息,而基于region proposal的物体检测方法(如rcnn/fast rcnn),在检测过程中,只‘看到’候选框内的局部图像信息。因此,若当图像背景(非物体)中的部分数据被包含在候选框中送入检测网络进行检测时,容易被误检测成物体。测试证明,YOLO对于背景图像的误检率低于fast rcnn误检率的一半。

  缺点

  • YOLO仍然是一个速度换精度的算法,目标检测的精度不如RCNN
  • 和基于region proposal的方法相比召回率较低。

这篇关于目标检测(五)之YOLOv1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/666438

相关文章

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,