YOLO_9000目标检测算法深度剖析

2024-04-22 07:08

本文主要是介绍YOLO_9000目标检测算法深度剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、何为YOLO_9000

二、9000种类的思考

三、引入WordTree

四、如何计算分类的损失

五、如何进行预测

六、相较YOLO_v2训练流程的改变


一、何为YOLO_9000

        YOLO_9000是在YOLO_v2的基础上进行9000中目标的分类算法,其结构等都与YOLO_v2一致,唯一不同的就是分类地方,不再是原先的20位,而是具有更加多样性的9000种目标的分类,本文就将对YOLO_9000如何在YOLO_v2的基础上进行9000中目标分类的进行详细讲解。有关YOLO_v2内容请移步 YOLO_v2目标检测算法深入剖析。

二、9000种类的思考

        众所周知,MNIST手写数字识别,Fashion-MNIST都是10分类的问题,VOC数据集也只有20种类,但是这些种类都有一个共同的特点,那就是各个种类之间是互不相关的,例如:1和4,裤子和鞋子,这些都是相互独立的东西,所以可以通过softmax进行分类,并能达到非常好的效果,但是如果分类的目标是,哈士奇,阿拉斯加,这种非常相近的目标的时候,显然使用softmax是非常不好的,因为哈士奇和阿拉斯加是有一部分共性的,那么这9000种种类中就存在着这样的问题,所以使用维度为9000的one-hot加上softmax是不合理的,那么我们到底该怎么办呢?

三、引入WordTree

        想必很多人都接触过赫夫曼编码,也就是用作压缩用的,需要构建赫夫曼树,其是二进制形式的,例如,一个单词的赫夫曼编码其可能是1011,这个就代表了这个单词。通过这个例子,我想此时就可以引出WordTree的思想了,看下图

图一:WordTree

        图一就是一个Wordtree,根表示是个物体,然后物体可以分为动物和其他一些种类(机器,家具等等),然后动物分成了哺乳动物和其他(比如,卵生动物等等),然后继续细分,直到数据集中的所有物种种类都被包含在其中,现在这个Wordtree构建完了,那么该如何使用呢?

        首先,虽然不是使用9000维度的one-hot形式进行softmax,但是分类所需要的维度依然是9000(虽然论文中是9418维度,但是这里去繁从简,定义为9000维度,不管维度是多少思想都是一样的),那么这个Wordtree总是可以按照一定的顺序进行遍历的,不管你是用BFS,还是DFS,到底是DFS中的先序、中序还是后序,只要你记住你是按照什么方式遍历的就可以,假如说你想要去找到dog这个物体,那么就是,physical object=1、animal=1、mammal=1、dog=1,除此以外的所有向量都是0,那么这个[1,1,1,1,0,0,0,...,0]就是dog的标签(这里的遍历顺序是假设的),可能cat就是[1,1,1,0,0,..,1,0,...,0],类似如此。总的来说就是,一个物体的细分路径上的点都要标记为1,如果一个物体由好几个路径可以到达,那么就选取从根节点到该物体最短的路径,以此来对其进行向量的标识。大体步骤参考下图二

图二:WordTree在向量中的表示

四、如何计算分类的损失

        通过本文的第三部分,我们知道了如何使用WordTree进行9000种类别的表示,那么一个最为关键的问题也出现了,如何去计算分类的损失呢?

        YOLO_9000采用的方法是,对于Wordtree同一层的分类进行softmax,例如,如果对狗进行损失计算,那么需要找到“dog”父亲节点的所有儿子节点,也就是“dog”节点的兄弟姐妹节点,例如图中的cat,然后再对他们进行softmax来计算误差。根据图一,可以清晰的看出该思想,因为和“dog”同层的物体时可以找出的,所以可以通过对同层的物体物体进行softmax。这么做也为之后的预测埋下了伏笔。

五、如何进行预测

        此时我们得到了一个9000维度的预测向量,那么我们就从根节点开始遍历,遍历的方向是前点的儿子中,概率最大的那个,然后一直向下,直到某个节点的儿子节点的概率低于设定的阈值,那么此时这个节点就是预测的节点。

六、相较YOLO_v2训练流程的改变

        由于ImageNet样本比COCO样本多很多,所以对COCO的采样会多一些,然后两者的比例是4:1,由于最后输出的分类向量的维度很大,考虑到时间复杂度,所以YOLO_9000的每个网格中的预测框数量由YOLO_v2的5个降低为3个。

这篇关于YOLO_9000目标检测算法深度剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925111

相关文章

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

YOLO v3 训练速度慢的问题

一天一夜出了两个模型,仅仅迭代了200次   原因:编译之前没有将Makefile 文件里的GPU设置为1,编译的是CPU版本,必须训练慢   解决方案: make clean  vim Makefile make   再次训练 速度快了,5分钟迭代了500次

大林 PID 算法

Dahlin PID算法是一种用于控制和调节系统的比例积分延迟算法。以下是一个简单的C语言实现示例: #include <stdio.h>// DALIN PID 结构体定义typedef struct {float SetPoint; // 设定点float Proportion; // 比例float Integral; // 积分float Derivative; // 微分flo

3月份目标——刷完乙级真题

https://www.patest.cn/contests/pat-b-practisePAT (Basic Level) Practice (中文) 标号标题通过提交通过率1001害死人不偿命的(3n+1)猜想 (15)31858792260.41002写出这个数 (20)21702664840.331003我要通过!(20)11071447060.251004成绩排名 (20)159644

好书推荐《深度学习入门 基于Python的理论与实现》

如果你对Python有一定的了解,想对深度学习的基本概念和工作原理有一个透彻的理解,想利用Python编写出简单的深度学习程序,那么这本书绝对是最佳的入门教程,理由如下:     (1)撰写者是一名日本普通的AI工作者,主要记录了他在深度学习中的笔记,这本书站在学习者的角度考虑,秉承“解剖”深度学习的底层技术,不使用任何现有的深度学习框架、尽可能仅使用基本的数学知识和Python库。从零创建一个

LeetCode 算法:二叉树的中序遍历 c++

原题链接🔗:二叉树的中序遍历 难度:简单⭐️ 题目 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root = [1,null,2,3] 输出:[1,3,2] 示例 2: 输入:root = [] 输出:[] 示例 3: 输入:root = [1] 输出:[1] 提示: 树中节点数目在范围 [0, 100] 内 -100 <= Node.

【Java算法】滑动窗口 下

​ ​    🔥个人主页: 中草药 🔥专栏:【算法工作坊】算法实战揭秘 🦌一.水果成篮 题目链接:904.水果成篮 ​ 算法原理 算法原理是使用“滑动窗口”(Sliding Window)策略,结合哈希表(Map)来高效地统计窗口内不同水果的种类数量。以下是详细分析: 初始化:创建一个空的哈希表 map 用来存储每种水果的数量,初始化左右指针 left

ROS2从入门到精通4-4:局部控制插件开发案例(以PID算法为例)

目录 0 专栏介绍1 控制插件编写模板1.1 构造控制插件类1.2 注册并导出插件1.3 编译与使用插件 2 基于PID的路径跟踪原理3 控制插件开发案例(PID算法)常见问题 0 专栏介绍 本专栏旨在通过对ROS2的系统学习,掌握ROS2底层基本分布式原理,并具有机器人建模和应用ROS2进行实际项目的开发和调试的工程能力。 🚀详情:《ROS2从入门到精通》 1 控制插