目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking

本文主要是介绍目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

简述:

基于孪生网络的跟踪器通常使用AlxcNet作为backbone,而没有充分利用现在深层网络的优势(比如ResNet、Inception等)。作者发现,如果直接将backbone换成ResNet、Inception等网络,随着深度的增加,效果不升反降,如下图蓝线(红线为作者提出的网络)。产生这种现象的原因有两个:
  ① 神经元感受野的大量增加导致特征的可辩性和定位精度降低。
  ② 卷积网络的padding在学习中引起了位置偏差。
在这里插入图片描述

问题Or主要工作:

问题:
  作者通过大量实验,发现阻止孪生跟踪算法从更深入,更复杂的网络架构中受益的原因,三个方面:感受野大小、网络步幅、特征填充。
  ① 合适的感受野大小很重要,较大的感受野提供更大的图像上下文信息、较小的感受野可能无法捕获对象的结构。
  ② 网络步幅影响定位精度。比如小尺寸物体,步幅太大,精度就差很多。
  ③ 特征填充(padding)会引起位置偏差,当对象在搜索范围边界附近移动时,难以进行准确的预测。
主要工作:
  ① 对影响控制精度的骨干网络研究后,在“瓶颈”残差块基础上提出自裁残差单元(cropping-inside residual Unit),CIR单元在块内部裁剪出受填充padding影响的特征(即,接收填充信号的特征),从而防止卷积滤波器学习位置偏差。
  ② 通过堆叠CIR单元设计了两种网络结构,更深、更宽(还设定了特定的步幅和感受野体高精度),将新的网络架构替换孪生网络的backbone,取得了State-of-the-Art的性能。

网络架构:

  1. 性能退化原因
    由图1,性能下降的直接原因在于网络结构,作者从步幅(STR),填充(PAD),最后一层神经元的感受野(RF)和输出特征尺寸(OFS)四个方面进行了实验,得出如下结论;
      ① 孪生类跟踪器的网络步长要小一点,不能太大,作者推荐4或者8。因为太大了,目标定位的准确性偏差也就大了。
      ② 最后一层感受野的的大小要与样例图片的大小有关,最好是样例图像的60%-80%。因为太大的感受野虽然增加了目标的上下文信息,但是减少了目标本身的局部信息和判别信息。
      ③ 当然,网络的步长、感受野大小要看做整体同时分析。可想而知,这些因素之间并不独立,一个改变,其他的也会随之改变。
      ④ 网络填充padding对最终性能有很大的负面影响,一种是删除填充的操作,还有一种是同时扩大模板帧和检测帧,然后剪裁掉收到padding影响的特征。
  2. 模型
      根据上面的分析,作者提出了CIR单元(cropping-inside residual units),以消除潜在的位置偏差。
    在这里插入图片描述
      上图所示,CIR单元是基于残差块的,(a)(b)是原始的残差块的结构。先看(a’),CIR单元,作者在addition操作后面加入了crop操作,来去除掉0填充信号对特征计算所带来的影响。因为填充(padding)为1,所以在边界上最外层的特征被剔除掉。再来看(b’),下采样CIR(CIR-D)单元,将shortcut上的1x1卷积和bottleneck层上3x3卷积的步长都变为1,这样方便addition后的crop操作,然后加入最大池化来进行尺寸的减小。

注:如果我们只是在添加操作之后插入裁剪,如在所提出的CIR单元中所做的那样,在不改变下采样的位置的情况下,裁剪之后的特征将不会从输入图像中的最外面的像素接收任何信号。随着网络深度的增加,这将有效地导致更多的图像内容被移除,从而导致噪声/不完整的提取特征。


CIR-Inception和CIR-NeXt单元: 根据Inception和ResNeXt,通过多个特征变换扩展CIR单元,生成CIR-Inception和CIR-NeXt 模块,如下图(c-d)所示。具体来说,在CIR-Inception结构中,作者在shortcut connection中插入一个1x1卷积,并合并两个分支的特征。在CIR-ResNeXt中,我们将瓶颈层拆分为32个转换分支,并通过添加进行聚合。此外,对于CIR-Inception 和CIR-NeXt的下采样单元,修改与CIR-D(图 3(b’))中的修改相同,其中卷积步幅减小并且增加了最大池化层。
在这里插入图片描述
  作者通过对以上提出的CIR单元的堆叠,构建了更深更宽的网络。首先确定stride,步幅8用于构建3级网络,而步幅4用于构建2级网络。制每个阶段的unit数量和下采样unit的位置。目标是确保最后一层神经元的感受野大小位于有效范围内(图像大小的 60%-80%),形成了六个主干网络结构:
在这里插入图片描述
具体细节:
 CIResNet-22:有3个部分(stride=8),22个卷积层。除了第一个7×7卷积,其他都是CIR单位。在7×7卷积之后进行裁剪操作(大小为2)以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段,通过所提出的CIR-D单元执行下采样,该CIR-D单元位于该阶段的第一个块(共四个)。当feature map大小被下采样时,卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5,每个feature感受野的相应大小93×93。
  CIResNet-43:进一步将网络深度增加到43层,设计为2个阶段,在 CIResNet-43的第二阶段,有14个块,其中第四个块具有用于特征下采样的 CIR-D 单元。

实验:

下图是提出的六个网络作为SiamFC和SiamRPN的主干网络的表现,可以看到,最深的CIResNet-43和最宽的CIResNeXt-22并没有取得最好的效果,原因在于:1)网络步幅变为4,使得两个相邻特征的感受域之间的重叠很大。因此,它不像对象定位中具有8步幅的网络那样精确。2)与Tab3中的其他网络相比,输出要素通道的数量减半。(即256对512通道)。整体参数大小也较小。
在这里插入图片描述
  在五个基准上与流行的跟踪器的比较:(SiamFC+和SiamRPN+的主干网络采用的是CIResNet-22版本),红色,绿色和蓝色字体分别表示前3名。
在这里插入图片描述
  下图与列出的方法,如EBT,LDP,nSAMF,TCNN,MLDF,CFWCR和CFCF在VOT挑战中进行了比较。SiamRPN +运行速度为150 fps,比MDNet快得多。
在这里插入图片描述
  表6 SiamFC上残差单元与CIR单元的对比。验证了CIR单元中消除padding的重要性,这基本上消除了学习中的位置偏差。表7:SiamFC中使用的不同下采样设置的对照。Setting1:直接使用原始下采样残差单元。Setting2:在下采样残差单元中插入裁剪操作。表7给出了结果表明我们的CIR-D单元有效。 在这里插入图片描述

这篇关于目标跟踪论文(五):Deeper and Wider Siamese Networks for Real-Time Visual Tracking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/745912

相关文章

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python 标准库time时间的访问和转换问题小结

《Python标准库time时间的访问和转换问题小结》time模块为Python提供了处理时间和日期的多种功能,适用于多种与时间相关的场景,包括获取当前时间、格式化时间、暂停程序执行、计算程序运行时... 目录模块介绍使用场景主要类主要函数 - time()- sleep()- localtime()- g

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已