Siamese Box Adaptive Network for Visual Tracking --Siamban,CVPR2020单目标跟踪开源

本文主要是介绍Siamese Box Adaptive Network for Visual Tracking --Siamban,CVPR2020单目标跟踪开源，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文链接 :　http://xxx.itp.ac.cn/pdf/2003.06761v2.pdf
开源项目：https://github.com/hqucv/siamban

创新点:siamban框架
改进:准确估计目标的尺度和纵横比
由于RPN引入导致的参数复杂性
避免了很多超参数,更加灵活

Abstract

现有的跟踪器大多依赖于多尺度搜索方案或预定义的锚来精确估计目标的尺度和纵横比(the scale and aspect ratio of a target)。不幸的是，它们通常需要无脑的启发式配置。为了解决这个问题，我们提出了一个简单而有效的视觉跟踪框架(名为Siamese Box Adaptive Network, SiamBAN)，它利用了全卷积网络(FCN)的表达能力。SiamBAN将视觉跟踪问题看作是一个并行分类和回归问题，从而在一个统一的FCN中直接对对象进行分类并回归它们的边界盒。无优先盒的设计避免了与候选盒相关的超参数，使SiamBAN更加灵活和通用。在视觉跟踪基准测试(包括VOT2018、VOT2019、OTB100、NFS、UAV123和LaSOT)上进行的大量实验表明，SiamBAN实现了最先进的hea性能，并以40帧/秒的速度运行，证实了它的有效性和效率。代码将在https://github.com/hqucv/siamban上发布。

1. Introduction

视觉跟踪是计算机视觉的一项基本而又具有挑战性的任务。给定序列初始帧中的目标状态，跟踪器需要预测后续帧中的目标状态。尽管近年来取得了很大的进展，但由于遮挡、尺度变化、背景杂波、快速运动、光照变化和外观变化，视觉跟踪仍然面临着挑战。在真实视频中，目标尺度和纵横比也会随着目标或摄像机的移动和目标外观的变化而变化。准确估计目标的尺度和纵横比成为视觉跟踪领域的一个难题。然而，许多现有的跟踪器忽略了这个问题，依赖于多尺度搜索来估计目标大小。例如，目前最先进的基于相关滤波器的跟踪器[6,3]依赖于它们的分类成分，而目标尺度只是通过多尺度搜索来估计。最近，基于Siamese网络的视觉跟踪器[21,52,20]引入了一种区域建议网络(RPN)来获得精确的目标边界盒。然而，为了处理不同的尺度和纵横比，他们需要基于启发式知识精心设计锚盒，这引入了许多超参数和计算复杂性。

在这里插入图片描述
图1所示。(a)用于估计目标尺度或宽高比的方法:多尺度搜索(如SiamFC、ECO)、基于锚的搜索(如siamRPN、siamRPN ++)和无锚的搜索(如our)。
(b)我们的SiamBAN跟踪器和两个最先进的跟踪器的一些有代表性的实验结果。从可视化结果可以看出，我们的跟踪器在尺度和纵横比上都优于其他两个跟踪器.
相比之下，神经科学家已经证明，生物视觉初级视觉皮层可以快速有效地从复杂的环境中提取观察对象的轮廓或边界。也就是说，人类可以在没有候选框的情况下识别出物体的位置和边界。那么，我们是否可以设计一个准确而健壮的视觉跟踪框架，而不依赖于候选框呢?受无锚探测器的启发[14,47,31,51,37]，答案是肯定的。利用全卷积网络(FCN)的表达能力，我们提出了一个简单而有效的视觉跟踪框架，称为Siamese box adaptive network (SiamBAN)，以解决精确估计目标的规模和纵横比的挑战。该框架由一个暹罗网络和多个盒子自适应头组成，不需要预先定义的候选盒子，可以在训练过程中进行端到端的优化。SiamBAN将目标分类并直接回归到统一的FCN中，将跟踪问题转化为分类回归问题。直接预测相关特征图上各空间位置的前-背景类别得分和4D向量。四维向量描述了从包围框的四个边到搜索区域对应的特征位置中心点的相对偏移量。在推理过程中，我们使用以目标的前一位置为中心的搜索图像。通过最佳得分位置对应的边界框，可以得到目标在帧间的位移和大小变化。