目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking

本文主要是介绍目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

简述:

基于孪生网络的跟踪器通常使用AlxcNet作为backbone,而没有充分利用现在深层网络的优势(比如ResNet、Inception等)。作者发现,如果直接将backbone换成ResNet、Inception等网络,随着深度的增加,效果不升反降,如下图蓝线(红线为作者提出的网络)。产生这种现象的原因有两个:
  ① 神经元感受野的大量增加导致特征的可辩性和定位精度降低。
  ② 卷积网络的padding在学习中引起了位置偏差。
在这里插入图片描述

问题Or主要工作:

问题:
  作者通过大量实验,发现阻止孪生跟踪算法从更深入,更复杂的网络架构中受益的原因,三个方面:感受野大小、网络步幅、特征填充。
  ① 合适的感受野大小很重要,较大的感受野提供更大的图像上下文信息、较小的感受野可能无法捕获对象的结构。
  ② 网络步幅影响定位精度。比如小尺寸物体,步幅太大,精度就差很多。
  ③ 特征填充(padding)会引起位置偏差,当对象在搜索范围边界附近移动时,难以进行准确的预测。
主要工作:
  ① 对影响控制精度的骨干网络研究后,在“瓶颈”残差块基础上提出自裁残差单元(cropping-inside residual Unit),CIR单元在块内部裁剪出受填充padding影响的特征(即,接收填充信号的特征),从而防止卷积滤波器学习位置偏差。
  ② 通过堆叠CIR单元设计了两种网络结构,更深、更宽(还设定了特定的步幅和感受野体高精度),将新的网络架构替换孪生网络的backbone,取得了State-of-the-Art的性能。

网络架构:

  1. 性能退化原因
    由图1,性能下降的直接原因在于网络结构,作者从步幅(STR),填充(PAD),最后一层神经元的感受野(RF)和输出特征尺寸(OFS)四个方面进行了实验,得出如下结论;
      ① 孪生类跟踪器的网络步长要小一点,不能太大,作者推荐4或者8。因为太大了,目标定位的准确性偏差也就大了。
      ② 最后一层感受野的的大小要与样例图片的大小有关,最好是样例图像的60%-80%。因为太大的感受野虽然增加了目标的上下文信息,但是减少了目标本身的局部信息和判别信息。
      ③ 当然,网络的步长、感受野大小要看做整体同时分析。可想而知,这些因素之间并不独立,一个改变,其他的也会随之改变。
      ④ 网络填充padding对最终性能有很大的负面影响,一种是删除填充的操作,还有一种是同时扩大模板帧和检测帧,然后剪裁掉收到padding影响的特征。
  2. 模型
      根据上面的分析,作者提出了CIR单元(cropping-inside residual units),以消除潜在的位置偏差。
    在这里插入图片描述
      上图所示,CIR单元是基于残差块的,(a)(b)是原始的残差块的结构。先看(a’),CIR单元,作者在addition操作后面加入了crop操作,来去除掉0填充信号对特征计算所带来的影响。因为填充(padding)为1,所以在边界上最外层的特征被剔除掉。再来看(b’),下采样CIR(CIR-D)单元,将shortcut上的1x1卷积和bottleneck层上3x3卷积的步长都变为1,这样方便addition后的crop操作,然后加入最大池化来进行尺寸的减小。

注:如果我们只是在添加操作之后插入裁剪,如在所提出的CIR单元中所做的那样,在不改变下采样的位置的情况下,裁剪之后的特征将不会从输入图像中的最外面的像素接收任何信号。随着网络深度的增加,这将有效地导致更多的图像内容被移除,从而导致噪声/不完整的提取特征。


CIR-Inception和CIR-NeXt单元: 根据Inception和ResNeXt,通过多个特征变换扩展CIR单元,生成CIR-Inception和CIR-NeXt 模块,如下图(c-d)所示。具体来说,在CIR-Inception结构中,作者在shortcut connection中插入一个1x1卷积,并合并两个分支的特征。在CIR-ResNeXt中,我们将瓶颈层拆分为32个转换分支,并通过添加进行聚合。此外,对于CIR-Inception 和CIR-NeXt的下采样单元,修改与CIR-D(图 3(b’))中的修改相同,其中卷积步幅减小并且增加了最大池化层。
在这里插入图片描述
  作者通过对以上提出的CIR单元的堆叠,构建了更深更宽的网络。首先确定stride,步幅8用于构建3级网络,而步幅4用于构建2级网络。制每个阶段的unit数量和下采样unit的位置。目标是确保最后一层神经元的感受野大小位于有效范围内(图像大小的 60%-80%),形成了六个主干网络结构:
在这里插入图片描述
具体细节:
 CIResNet-22:有3个部分(stride=8),22个卷积层。除了第一个7×7卷积,其他都是CIR单位。在7×7卷积之后进行裁剪操作(大小为2)以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段,通过所提出的CIR-D单元执行下采样,该CIR-D单元位于该阶段的第一个块(共四个)。当feature map大小被下采样时,卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5,每个feature感受野的相应大小93×93。
  CIResNet-43:进一步将网络深度增加到43层,设计为2个阶段,在 CIResNet-43的第二阶段,有14个块,其中第四个块具有用于特征下采样的 CIR-D 单元。

实验:

下图是提出的六个网络作为SiamFC和SiamRPN的主干网络的表现,可以看到,最深的CIResNet-43和最宽的CIResNeXt-22并没有取得最好的效果,原因在于:1)网络步幅变为4,使得两个相邻特征的感受域之间的重叠很大。因此,它不像对象定位中具有8步幅的网络那样精确。2)与Tab3中的其他网络相比,输出要素通道的数量减半。(即256对512通道)。整体参数大小也较小。
在这里插入图片描述
  在五个基准上与流行的跟踪器的比较:(SiamFC+和SiamRPN+的主干网络采用的是CIResNet-22版本),红色,绿色和蓝色字体分别表示前3名。
在这里插入图片描述
  下图与列出的方法,如EBT,LDP,nSAMF,TCNN,MLDF,CFWCR和CFCF在VOT挑战中进行了比较。SiamRPN +运行速度为150 fps,比MDNet快得多。
在这里插入图片描述
  表6 SiamFC上残差单元与CIR单元的对比。验证了CIR单元中消除padding的重要性,这基本上消除了学习中的位置偏差。表7:SiamFC中使用的不同下采样设置的对照。Setting1:直接使用原始下采样残差单元。Setting2:在下采样残差单元中插入裁剪操作。表7给出了结果表明我们的CIR-D单元有效。 在这里插入图片描述

这篇关于目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/745912

相关文章

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

linux 下Time_wait过多问题解决

转自:http://blog.csdn.net/jaylong35/article/details/6605077 问题起因: 自己开发了一个服务器和客户端,通过短连接的方式来进行通讯,由于过于频繁的创建连接,导致系统连接数量被占用,不能及时释放。看了一下18888,当时吓到了。 现象: 1、外部机器不能正常连接SSH 2、内向外不能够正常的ping通过,域名也不能正常解析。

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

Verybot之OpenCV应用三:色标跟踪

下面的这个应用主要完成的是Verybot跟踪色标的功能,识别部分还是居于OpenCV编写,色标跟踪一般需要将图像的颜色模式进行转换,将RGB转换为HSV,因为对HSV格式下的图像进行识别时受光线的影响比较小,但是也有采用RGB模式来进行识别的情况,这种情况一般光线条件比较固定,背景跟识别物在颜色上很容易区分出来。         下面这个程序的流程大致是这样的: