Siamese Box Adaptive Network for Visual Tracking --Siamban,CVPR2020单目标跟踪开源

本文主要是介绍Siamese Box Adaptive Network for Visual Tracking --Siamban,CVPR2020单目标跟踪开源,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接 : http://xxx.itp.ac.cn/pdf/2003.06761v2.pdf
开源项目:https://github.com/hqucv/siamban

创新点:siamban框架
改进:准确估计目标的尺度和纵横比
由于RPN引入导致的参数复杂性
避免了很多超参数,更加灵活

Abstract

现有的跟踪器大多依赖于多尺度搜索方案或预定义的锚来精确估计目标的尺度和纵横比(the scale and aspect ratio of a target)。不幸的是,它们通常需要无脑的启发式配置。为了解决这个问题,我们提出了一个简单而有效的视觉跟踪框架(名为Siamese Box Adaptive Network, SiamBAN),它利用了全卷积网络(FCN)的表达能力。SiamBAN将视觉跟踪问题看作是一个并行分类和回归问题,从而在一个统一的FCN中直接对对象进行分类并回归它们的边界盒。无优先盒的设计避免了与候选盒相关的超参数,使SiamBAN更加灵活和通用。在视觉跟踪基准测试(包括VOT2018、VOT2019、OTB100、NFS、UAV123和LaSOT)上进行的大量实验表明,SiamBAN实现了最先进的hea性能,并以40帧/秒的速度运行,证实了它的有效性和效率。代码将在https://github.com/hqucv/siamban上发布。

1. Introduction

视觉跟踪是计算机视觉的一项基本而又具有挑战性的任务。给定序列初始帧中的目标状态,跟踪器需要预测后续帧中的目标状态。尽管近年来取得了很大的进展,但由于遮挡、尺度变化、背景杂波、快速运动、光照变化和外观变化,视觉跟踪仍然面临着挑战。在真实视频中,目标尺度和纵横比也会随着目标或摄像机的移动和目标外观的变化而变化。准确估计目标的尺度和纵横比成为视觉跟踪领域的一个难题。然而,许多现有的跟踪器忽略了这个问题,依赖于多尺度搜索来估计目标大小。例如,目前最先进的基于相关滤波器的跟踪器[6,3]依赖于它们的分类成分,而目标尺度只是通过多尺度搜索来估计。最近,基于Siamese网络的视觉跟踪器[21,52,20]引入了一种区域建议网络(RPN)来获得精确的目标边界盒。然而,为了处理不同的尺度和纵横比,他们需要基于启发式知识精心设计锚盒,这引入了许多超参数和计算复杂性。

在这里插入图片描述
图1所示。(a)用于估计目标尺度或宽高比的方法:多尺度搜索(如SiamFC、ECO)、基于锚的搜索(如siamRPN、siamRPN ++)和无锚的搜索(如our)。
(b)我们的SiamBAN跟踪器和两个最先进的跟踪器的一些有代表性的实验结果。从可视化结果可以看出,我们的跟踪器在尺度和纵横比上都优于其他两个跟踪器.
相比之下,神经科学家已经证明,生物视觉初级视觉皮层可以快速有效地从复杂的环境中提取观察对象的轮廓或边界。也就是说,人类可以在没有候选框的情况下识别出物体的位置和边界。那么,我们是否可以设计一个准确而健壮的视觉跟踪框架,而不依赖于候选框呢?受无锚探测器的启发[14,47,31,51,37],答案是肯定的。利用全卷积网络(FCN)的表达能力,我们提出了一个简单而有效的视觉跟踪框架,称为Siamese box adaptive network (SiamBAN),以解决精确估计目标的规模和纵横比的挑战。该框架由一个暹罗网络和多个盒子自适应头组成,不需要预先定义的候选盒子,可以在训练过程中进行端到端的优化。SiamBAN将目标分类并直接回归到统一的FCN中,将跟踪问题转化为分类回归问题。直接预测相关特征图上各空间位置的前-背景类别得分和4D向量。四维向量描述了从包围框的四个边到搜索区域对应的特征位置中心点的相对偏移量。在推理过程中,我们使用以目标的前一位置为中心的搜索图像。通过最佳得分位置对应的边界框,可以得到目标在帧间的位移和大小变化。

这项工作的主要贡献有三方面

  • 我们设计了一个Siamese box adaptive network,它可以使用深度卷积神经网络[12]在经过良好注解的数据集上进行端到端的离线训练[34,30,25,15,9]。

  • SiamBAN中的无优先候选框设计避免了与候选框相关的超参数,使我们的跟踪器更加灵活和通用。

这篇关于Siamese Box Adaptive Network for Visual Tracking --Siamban,CVPR2020单目标跟踪开源的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/259653

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

HomeBank:开源免费的个人财务管理软件

在个人财务管理领域,找到一个既免费又开源的解决方案并非易事。HomeBank&nbsp;正是这样一个项目,它不仅提供了强大的功能,还拥有一个活跃的社区,不断推动其发展和完善。 开源免费:HomeBank 是一个完全开源的项目,用户可以自由地使用、修改和分发。用户友好的界面:提供直观的图形用户界面,使得非技术用户也能轻松上手。数据导入支持:支持从 Quicken、Microsoft Money

开源分布式数据库中间件

转自:https://www.csdn.net/article/2015-07-16/2825228 MyCat:开源分布式数据库中间件 为什么需要MyCat? 虽然云计算时代,传统数据库存在着先天性的弊端,但是NoSQL数据库又无法将其替代。如果传统数据易于扩展,可切分,就可以避免单机(单库)的性能缺陷。 MyCat的目标就是:低成本地将现有的单机数据库和应用平滑迁移到“云”端