本文主要是介绍YOLO V3 网络结构理解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
yolov3部分网络结构图
yolo v3每层的输入输出大小
最直观的yolo v3结构图
yolov3细节点
yolov3部分网络结构图
输入大小608*608
yolo v3每层的输入输出大小
以下图片来自 https://blog.csdn.net/zw__chen/article/details/84322511
输入图片大小416*416
第一层yolo: 13*13*255 255 = (4+1+80)*3 = 85*3
第二层yolo: 26*26*255
第三层yolo: 52*52*255
最直观的yolo v3结构图
以下图片来自博客 https://blog.csdn.net/zw__chen/article/details/84322511
yolov3细节点
yolov3 = Resnet + darknet-53 + FPN
输入图片大小:416*416
32倍下采样: 13*13
16倍下采样: 26*26
8倍下采样: 52*52
采用多尺度预测
每个尺度三种大小的锚点:一共有9种锚点(3*3)
每个特征图网格预测3个bbox 每个网格输出的维度为(4+1+80)bbox坐标+ bbox conf + class score
由于检测是在三个尺度上进行的,预测图的维度是不同的。虽然三个特征图的维度不同,但对它们执行的输出处理过程是相似的。测试的时候会做相应的工作将三个尺度的输出结果组合为单个张量
最终预测单张图像时,网络输出的维度为:1×10647×85
第一个维度为批量大小
第二个维度表示预测框的个数:10647 = (52*52 + 26*26 + 13*13)*3
第三个维度表示每个BBOX的信息:85 = (4+1+80)(4 个边界框属性、1 个 objectness 分数和 80 个类别分数)
这篇关于YOLO V3 网络结构理解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!