9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程

2024-06-14 04:12

本文主要是介绍9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程

前情回顾:9.1.2 简单介绍两阶段模型R-CNN、SPPNet、Fast R-CNN、Faster R-CNN的发展过程

摘要

YOLOYOLOv2YOLO9000YOLOv3
基本思想使用一个端到端的卷积神经网络直接预测目标的类别和位置针对YOLOv1的两个缺点进行改进可以实时地检测超过9000种物体,其主要贡献是使用检测数据集分类数据集进行联合训练在YOLOv2基础上进行改进,优化模型效果
优点相对于两阶段模型,YOLO实时性高,但检测精度稍低使用检测数据集分类数据集进行联合训练采用在YOLOv2基础上进行改进,优化模型效果进行联合训练,使其在小物体上也能获得很好的检测效果
输入图像448×448416×416
具体做法将输入图片划分成SxS的方格,每个方格需要检测出中心点位于该方格内的物体。在具体实施时,每个方格会预测B个边界框(包括位置、尺寸和置信度)1.批归一化(BN)层
2.在高精度的图片上调优(fine-tune)10个批次(batch)
3.k-means算法
4.直接在预先设定的锚框上提取特征
5.输入图像的尺寸:416×416
6.将不同大小的特征图结合起来进行物体检测
7.训练每隔10个批次就改变输入图片大小
8.DarkNet-19
字典树损失函数:二元交叉熵损失函数
主体网络参考 GoogLeNet,由24个卷积层和2个全连接层组成DarkNet-19
采用3x3的卷积核**,共有**19个卷积层和5个池化层
DarkNet-53(53个卷积层)
借鉴了残差网络的快捷连接(shortcut)结构
缺点低召回率、低定位准确率

1.YOLO

  • 基本思想:是使用一个端到端的卷积神经网络直接预测目标的类别和位置

  • 优点:相对于两阶段模型,YOLO实时性高,但检测精度稍低

  • 做法:YOLO将输入图片划分成SxS的方格,每个方格需要检测出中心点位于该方格内的物体。在具体实施时,每个方格会预测B个边界框(包括位置、尺寸和置信度)。

  • 主体:YOLO的主体网络结构参考 GoogLeNet,由24个卷积层和2个全连接层组成。

  • 缺点:低召回率、低定位准确率

2.YOLOv2

YOLOv2针对YOLO的两个缺点,即低召回率和低定位准确率,进行了一系列的改进,下面简单介绍其中的几点。
(1)YOLOv2在卷积层后面添加了批归一化(BN)层,以加快收敛速度,防止过拟合
(2)YOLOv2的卷积特征提取器在进行检测任务前,先在高精度的图片上调优(fine-tune)10个批次(batch),这样能使检测模型提前适应高分辨率图像
(3)YOLOv2采用k-means算法进行聚类获取先验锚框,并且聚类没有采用欧氏距离,而是有针对性地改进了距离的定义,即
d ( b o x , c e n t r o i d ) = 1 − I O U ( b o x , c e n t o r i d ) d(box,centroid)=1-IOU(box,centorid) d(box,centroid)=1IOU(box,centorid)
使其更适合于检测任务。
(4)YOLOv2直接在预先设定的锚框上提取特征。YOLO使用卷积神经网络作为特征提取器,在卷积神经网络之后加上全连接层来预测边界框的中心位置、大小和置信度;而YOLOv2借鉴了Faster R-CNN的思路,用卷积神经网络直接在锚点框上预测偏移量和置信度,该方法要比 YOLO更简单、更容易学习。
(5)YOLOv2将输入图像的尺寸从448x448变成416x416,这是因为在真实场景中,图片通常是以某个物体为中心,修改输入图像的尺寸后,将整幅图像经过卷积层后变成13x13(416/32=13)的特征图,长宽都是奇数,可以有效地识别出中心
(6)YOLOv2在13x13的特征图上检测物体,对于小物体检测这个精度还远远不够。因此,YOLOv2还将不同大小的特征图结合起来进行物体检测。具体来说,YOLOv2将最后一个池化层的输入26×26×512经过直通层变成13×13×2048的特征图,再与池化后的13×13×1024特征图结合在一起进行物体检测。
(7)YOLOv2 使用不同尺寸的图片同时训练网络。为了增强模型的鲁棒性,模型在训练过程中,每隔10个批次就改变输入图片的大小。
(8)YOLOv2使用新的卷积特征提取网络DarkNet-19。当时大多数检测模型的特征提取部分都采用VGGNet-16作为网络主体,VGGNet-16 虽然效果良好,但是参数过多,运行缓慢。DarkNet-19采用3x3的卷积核,共有19个卷积层和5个池化层

3.YOLO9000

YOLO9000可以实时地检测超过9000种物体,其主要贡献是使用检测数据集分类数据集进行联合训练

  • 检测数据集特点:相对于分类数据集来说,数据量小、类别少、类别粒度粗且获取困难,因此研究人员考虑使用分类和检测数据集进行联合训练,提高模型的泛化能力

  • 问题及解决:然而,一般分类数据集的标签粒度要远小于检测数据集的标签粒度,为了能够联合训练,YOLO9000 模型构建了字典树,合并 ImageNet的分类数据集标签与COCO的检测数据集标签。

4.YOLOv3

YOLOv3在YOLOv2的基础上进行了一些小的改动来优化模型的效果

  • 首先,检测数据可能存在一些语义上重叠的标签(如女人和人),但Softmax 函数基于一个假设,即每个检测框内的物体只存在一个类别。因此,YOLOv3使用二元交叉熵损失函数,而不是Softmax函数,这样可以更好地支持多标签的检测
  • 其次,YOLOv3采用了更深的网络作为特征提取器,即DarkNet-53,它包含了53个卷积层
  • 为了避免深层网络带来的梯度消失问题,DarkNet-53 借鉴了残差网络的快捷连接(shortcut)结构
  • 同时,YOLOv3还采用了3个不同大小的特征图进行联合训练,使其在小物体上也能获得很好的检测效果。

下集预告:9.1.4 有哪些措施可以增强模型对于小物体的检测效果?

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

这篇关于9.1.3 简单介绍单阶段模型YOLO、YOLOv2、YOLO9000、YOLOv3的发展过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1059342

相关文章

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务