【论文解读】TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone

本文主要是介绍【论文解读】TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述

无人机场景下的图像主要有以下三个问题
1. 尺度变化大
2. 物体密集，造成遮挡
3. 由于无人机拍摄场景覆盖面积大，图像中包含多种多样的地理元素
网络组成
1. Backbone与Neck部分与YOLOv5一致
2. 在Head部分，额外添加了一个检测头用来检测图片中的Tiny物体，这样整个的TPH-YOLOV5的检测头部分总共有四部分，分别是Tiny，Small，Medium，Large
3. 将原始的检测头用TPH替代
4. 加入CBAM，用来寻找感兴趣的区域
训练策略
1. 采用数据增强，提升了网络对图像中尺度变化大的问题
2. 推理阶段，采用多尺度测试和多模型集成策略
3. 针对网络定位能力强，分类能力弱的问题，引入了一个ResNet18来更好的提高网络分类能力。

Prediction head for tiny objects
作者通过分析VisDrone数据集，发现数据集中存在许多小物体，因此加入了一个用于检测Tiny物体的检测头
Transformer encoder block
1. 作者认为Transformer能够更好的捕获全局信息，因此替换掉了一些卷积层，得出transformer encoder blocks在处理密集物体场景中拥有更好的表现。
2. 将transformer encoder blocks 放在backbone的尾部以及head部分的原因是为了特征图分辨率较低，能够有效降低昂贵的计算和内存成本
Convolutional block attention module（CBAM）
用于网络在处理令人困惑的地理区域时，能够更改好的专注于有用的目标对象
Ms-testing and model ensemble.
常规操作
Self-trained classifier.
针对网络定位能力强，分类能力弱的问题，引入了一个ResNet18来更好的提高网络分类能力。