【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020

本文主要是介绍【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要：形变卷积，最开始被用来匹配物体的几何变形，最近在对齐多帧图像上表现出优良的性能，逐渐被用在视频超分任务里面。尽管展现出优良的性能，形变卷积做对齐的内在机制依然不明确。在本文中，我们仔细探究了形变对齐和经典的基于光流对齐的联系。我们展示了形变对齐可以被分解为空间warping和卷积的组合。这种分解显示了形变对齐和光流对齐在公式上的共性，但是在偏移多样性上有关键差异。我们进一步通过实验证明在形变对齐中增加多样性能够产生更好的对齐特征，因此极大地提升了视频超分输出的质量。基于我们的观察，我们提出了偏移保真度（offset-fidelity）损失，它使用光流引导偏移学习。

贡献点：

1.尽管形变对齐在运动补偿任务中已经展示了优良性能，用它替代卷积光流对齐。但是形变对齐与光流对齐之间的关系在学术上只有表面的讨论。这篇论文是第一个研究这两个重要概念之间的关系的文章。

2.我们系统地研究了偏移多样性的优点，我们展示了偏移多样性是提升对齐精度和超分表现的关键因素。

3. 基于我们的研究，我们针对形变对齐提出了偏移保真度（offset-fidelity）损失来稳定训练过程同时保护形变多样性。利用我们的损失，我们观察到有1.7dB的提升（视频超分任务中，PSNR评价指标）。

4.我们的公式化推理启发了一个更加灵活的方法去增加偏移多样性（在光流对齐方法中）。

方法

一、形变卷积 $y\left ( p \right )=\sum_{k=1}^{n^2}w\left ( p_k \right ) \cdot x(p+p_k+\bigtriangledown p_k)$ , 其中 $p_k$ 表示在一个标准的nxn核的卷积里面的第k个采样偏移。例如当n=3, 我们有 $p_k\in \left \{ (-1,-1),(-1,0), ... ,(1,1) \right \}$ 。我们设在 $p+p_k$ 位置的第k个增加的学习偏移为 $\bigtriangledown p_k$ 。x和y分别代表输入和输出特征。w为核的权重。形变卷积示意图如下图所示：

二、形变对齐在视频超分任务中，比较关键的是建立连续帧之间的对应关系，为了后续的细节提取和融合。最近的研究越过传统的光流warp方式，使用形变卷积做特征对齐，示意图如下：

对应的公式表达形式为 $F^{\cdot }_{t+i}(p)=\sum_{k=1}^{n^2}w(p_k)\cdot F_{t+i}(p+p_k+\bigtriangledown p_k)$ , 其中 $F_t$ 和 $F_{t+i}$ 分别表示参考帧和临域帧的帧间特征。在形变对齐中，使用形变卷积将 $F_{t+i}$ 朝 $F_t$ 对齐。 $F^\cdot _{t+i}$ 表示对齐后的特征。偏移 $\bigtriangledown p_k$ 由几个卷积预测获得，卷积的输入是 $F_t$ 和 $F_{t+i}$ 。参考帧只被用来预测偏移，并不直接参与卷积运算。

三、形变对齐与光流对齐之间的关系我们通过展示形变卷积可以被分解为空间warping和标准卷积，来讨论形变对齐和光流对齐之间的联系。设x为输入特征， $p_k+\bigtriangledown p_k$ 为p位置的第k个偏移，被warp的特征为 $x_k(p)=x(p+p_k+\bigtriangledown p_k)$ 。我们有

$y\left ( p \right )=\sum_{k=1}^{n^2}w(p_k)\cdot x_k(p)$ (3)

该公式等价于一个 $1\times 1\times n^2$ 的标准3D卷积。因此，我们可以发现一个形变卷积运算过程等价于 $n^2$ 独立的空间warping加一个 $1\times 1\times n^2$ 的标准3D卷积操作，如图Figure2(b)所示。

Remarks:

1. 通过使用 $N\epsilon \mathbb{N}$ 代替方程(3)中的 $n^2$ , 这个分解推导出DCN，在去掉限制（在每个组内的偏移量必须等于 $n^2$ ）的条件下。因此，在剩余的叙述中，我们使用N表示每个组内的偏移量。

2. 通过将这N个warped特征在通道维堆叠，1x1xN的3D卷积能够被一个1x1的2D卷积代替。也就是说，DCN与下面的过程等价：N个独立的空间warp操作，然后连一个1x1的2D卷积。

从方程(3)可以看出，n=1的特殊情况等价于一个空间warping操作后接一个1x1的卷积操作。在运动补偿任务中，这种特殊情况对应一个光流对齐操作。也就是说，形变对齐与光流对齐共享相同的公式表达，除了偏移多样性上的差异。

Discussion: 前面的分析引导出几个有趣的探索。

1. 相比光流对齐，形变对齐在什么地方获得额外信息？这个分析指向偏移多样性，我们在Sec4的实验中证明了这个假设。

2. 更高的偏移多样性(offset diversity)总是好的吗？我们在Sec4.2证明：尽管输出质量在使用偏移多样性后总体上提升了，当偏移多样性比较大之后，输出表现达到一个天花板。因此，无限增加偏移多样性不能带来明显输出质量提升，这会降低模型的效率。在实践中，研究人员应该选择一个合适偏移多样性来平衡模型的表现性能与效率。

3. 我们能够在光流对齐中增加偏移多样性吗？不像形变对齐（偏移量必须等于核尺寸的平方），我们的公式化推导出有任意偏移量的形变对齐。结果是，这提供了一个灵活的方法将偏移多样性应用到光流对齐中。我们在实验中显示增加偏移多样性帮助基于光流的网络实现更好的超分表现。

四、偏移保真度(offset-fidelity)损失

在这一小结，通过Sec3.3中展示的解析的引导，我们证明光流如何从形变对齐中获利------使用我们新提出的偏移保真度损失。由于形变对齐的不明确的偏移解释性，形变对齐通常使用随机初始化从零开始训练。随着网络容量(笔者的理解是网络参数)的提升，形变对齐的训练变得不稳定，并且偏移溢出严重地降低了模型的表现。相比之下，在基于光流的方法中，提出了各种各样的训练策略来提升对齐精度和收敛速度，比如采用光流网络结构、光流指导损失和光流预训练。

考虑到Sec3.3中讨论的空间warping和形变卷积之间的关系，我们提出使用光流指导偏移的训练。特别地，我们提出偏移保真度损失来约束偏移(offsets),以便这些偏移不能从光流中偏离很多。更进一步，为了帮助视频超分任务中的优化和不同偏移量的学习，赫维赛德阶跃函数(Heaviside step function)被采用。网络损失函数如下：

$\dot{L}=L+\lambda \sum_{n=1}^{N}L_n$ ，其中 $L_n=\sum_{i}^{ } \sum_{j}^{ } H\left ( \left | x_{n, ij}-y_{ij} \right |-t\right )\cdot \left | x_{n,ij}-y_{ij} \right |$ , 这里 i, j 表示空间指示 $H\left ( \cdot \right )$ 表示赫维赛德阶跃函数。 $\lambda$ 和t表示控制偏移多样性的超参数。在Sec4.3中显示，我们的loss能够稳定训练和避免大模型的偏移溢出。

几点重要分析

1. 形变对齐与光流对齐

通过设置G=N=1(比如group=1和每组的偏移量=1)，形变对齐学习到的偏移量类似于基于光流的对齐方法中的光流捕捉到的信息。特别地，当只有一个偏移量需要学习，模型会基于帧间的运动自动学习对齐特征。就像Fig4中显示的，学习到的偏移量与PWC-net中的光流评估结果高度相似。除了它们之间的高度相似性，学习到的偏移量与光流之间的不同点是不能忽视的------由于任务性质上的基础差异。特别地， PWC-net被训练来描述帧间的运动，而我们的baseline被训练来用于视频超分任务，在这种情况下光流可能不是对应帧之间的最优表达。在Fig4中，我们看到由学习的偏移warp出来的图像保存了更多场景内容。相比之下，由光流warp出的图像中出现了暗区域和伪影。

特征对齐，前面提到的基于光流的对齐baseline执行特征warping。这不同与那些主流的去做图像warp而学习光流的光流方法。在这些方法中，光流包含小数值，因此在执行warping操作时需要插值。这不可避免地带来信息损失，特别是高频细节。结果是，模糊对齐的图像产生了子优化结果。最近的形变对齐方法尝试在特征层面执行对齐操作，实现了出色的结果。我们检查特征层面的warping的贡献-----通过用一个图像对齐模块替换我们的基于光流的baseline中的特征对齐模块。令人惊讶的是，除了结构上的接近，图像对齐带来0.84dB的降低。这表明特征层面上的warping操作对基于光流的对齐是有益的。

2. 偏移多样性的贡献(Contributions of Diversity) 我们感兴趣的是不同的类似光流的偏移是否对视频超分任务有益。这激励我们检查对齐特征和与它对应的表现。当只有一个偏移量时，对齐特征忍受有不可见区域导致的warping误差和不精确的运动评估。不准确的对齐特征不可避免地阻碍了信息的聚合，由此损害了子序列重建。相比之下，当有多个偏移量时，这些独立的warping特征是互相起作用的，在融合时它们提供了更好的对齐特征，因此缓解了单个偏移量的不精确对齐。如图Fig7所示，可以看到在单个偏移量的条件下，对齐特征是更不一致的。比如，在图像边缘，对应区域在相邻帧图像中并不存在，由单个偏移量warp的特征包含了一大片暗区域。相比之下，在15个偏移量条件下，补充的warp特征为融合提供了额外的信息，因此产生更加一致的特征和保护更多细节。

3. 增加偏移多样性我们通过逐渐增加偏移量来检查模型的表现增益和尝试检查是否更多偏移总是带来更好的表现。不同N值的定性和定量比较如图fig8和fig9。

后记：本文主要的贡献是分析了光流对齐和形变对齐的特点以及它们的联系，定量和定性地的分析了偏移多样性在视频超分任务中的作用。特别地，作者用实验证明了在光流方法中特征对齐相比图像对齐更有利于视频超分任务，这个结论被用到了BasicVSR视频超分网络中。笔者之前对该网络作了一篇介绍BasicVSR，感兴趣的读者可以看看。另外，本文是EDVR网络和BasicVSR网络的中间工作，与这两个网络都有紧密联系。建议读者阅读这两篇论文，对本文所提方法会有一个系统的认识。

reference

[1] Understanding Deformable Alignment in Video Super-Resolution

[2] BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

[3] Video Restoration with Enhanced Deformable Convolutional Networks

这篇关于【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！