[CREST(ICCV2017)]：论文阅读笔记

本文主要是介绍[CREST(ICCV2017)]：论文阅读笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CREST: Convolutional Residual Learning for Visual Tracking 论文地址代码

写在前面

这篇论文是在DCF上面的一些改进，也是第一篇将残差学习应用到目标跟踪这个领域中来，他们将DCF从频域弄回到了时域，就可以用滤波的方式直接得到response map了，个人感觉其实就是SiamFC那种相关的过程，不过加了时间和空间的残差，但是精度比SiamFC高很多，也可以归功于其模型更新。

Motivation

目前基于DCF的tracker独立于特征提取，并没有充分利用端到端学习；
DCF的方法通过线性插值方式来更新模型，使得模型很容易被噪声污染。

Contribution

将相关滤波作为一个卷积层，它集成了特征提取，相应计算和模型更新；
利用残差学习方式去获取在表观变化后的特征，保证了网络表观变化大的时候的精确性。

Algorithm

在这里插入图片描述
以上就是这篇文章的网络结构，当一个帧进来时，先是过VGG-16的网络提取特征，然后对于第一帧计算Temporal 残差值。剩下的帧先是过一个DCF的层，其实这层就是将原始的DCF操作换成卷积层，然后过一个空间残差层，最后三个加起来得到最后的response map。接下来简单介绍一下这三个结构。

1、DCF 层（Base layer）

作者将原始的DCF的岭回归问题换成以下形式：
在这里插入图片描述

其实带进去后，就发现其实也就是岭回归问题，把W看成是权重就可以了，不过这个W是卷积层的参数，也就是一个相关的操作，然后计算与标签的损失，W的尺寸和ground truth一样，这样是为了使得卷出来的值刚好cover整个ground truth。（这里和SiamFC不一样的是，W就只是网络参数，而SiamFC就简单粗暴的把ground truth当成W了，文章也没解释为什么。难道是因为损失函数？还是提取的特征比较好？有待考证）

2、Residual Learning

在这里插入图片描述
文章中提到，只用这样做并不能使得模型对表观变化鲁邦，所以需要添加一些额外的信息，这里他们使用了残差块来添加特征。假设 $H (x)$ 是最好的对X的表示， $F_B(X)$ 表示Base layer的输出， $F_R(x)$ 表示残差模块的输出，所以
$H(x) = F_B(X) + F_R(X)$
文中提到，当目标的变化不大时，残差分支的输出很小，但是当目标表观变化很大时，Base layer的相应就会很小，这时残差模块就会负责准确将目标找出来（文章没解释为什么管用，我的理解是这里使用了小的卷积核，应用了局部信息，可能全局语义用不了的时候局部的特征可以帮助定位？）。