视频超分：BRCN（Video Super-Resolution via Bidirectional Recurrent Convolutional Networks）

本文主要是介绍视频超分：BRCN（Video Super-Resolution via Bidirectional Recurrent Convolutional Networks），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
论文：应用双向循环卷积网络的视频超分辨率方法
代码：https://github.com/linan142857/BRCN
文章检索出处：IEEE TPAMI 2017

看点

考虑到RNN可以很好地模拟视频序列的长期时间依赖性，本文提出了一种双向循环卷积网络（BRCN）。主要贡献如下：
1）提出了一种适用于多帧SR的双向循环卷积网络，其中时间依赖性可以通过循环卷积和三维前馈卷积有效地建模。
2）它是一个端到端的框架，不需要前/后处理。我们的卷积可以缩放到任何空间大小和时间步长的视频。
在这里插入图片描述

方法

overview

下图为所提出的网络，包含前向子网络和后向子网络，以对来自先前帧和未来帧的时间依赖性进行建模。前向子网分为输入层、两个隐藏层和输出层。这些特征映射通过两种类型的卷积连接起来。
在这里插入图片描述

3D前向卷积： 由黑色箭头表示的3D前馈卷积不仅连接当前时间步长处的输入层，而且将先前时间步长处的多个相邻层也连接到当前隐藏层。3D前馈卷积的细节如下图所示。其中时间步长为3，用黄、红、黑线表示。通过将先前的输入层视为当前输入层的上下文信息，卷积可以从空间和时间两个维度提取短期快速运动信息。三维前馈卷积的时间步长不应太大，因为快速运动通常发生在局部相邻帧中。
在这里插入图片描述
循环卷积： 由蓝色箭头表示的循环卷积连接两个相邻帧的隐藏层，其中当前隐藏层的推断以上一个时间步的隐藏层为条件。循环卷积的细节如上图蓝线表示。循环卷积的滤波器权值在所有时间步之间共享，因此可以在很长的时间范围内捕获隐藏层之间的重复变换模式。但是与3D前馈卷积不同，2D循环卷积操作在更抽象的隐藏层而不是细节帧，因此更适合于捕捉全局慢动作信息。
第一隐藏层： 当推断前向子网中第i个时间步的第一隐藏层 $H_{1,i}^f$ 时，考虑两个不同的输入：
1）沿时间轴堆叠的第i帧及其之前 $t_{w_1}$ 帧，用 $[\mathsf X]_i^f$ 表示，通过3D前馈卷积连接。请注意，本文的输入帧均提前使用双三次插值上采样处理
2）i-1时刻隐藏层 $H_{1,i-1}^f$ 通过循环卷积连接
在这里插入图片描述

其中， $\mathsf U_1^f$ 代表循环卷积的滤波器，大小为 $n_1×s_{u_1}×s_{u_1}×n_1$ 。 $*$ 表示二维卷积操作，采用ReLU作为激活函数。 $\mathsf W_1^f$ 代表3D前向卷积滤波器，大小为 $c×s_{w_1}×s_{w_1}×n_1$ ，时间步长为 $t_{w_1}$ ， $\hat *$ 表示三维卷积操作。
第二隐藏层： 该阶段将获得的特征映射 $H_{1,i}^f$ 投影到另一个隐藏层，以捕捉视频序列中的非线性结构。除了传统的前向卷积的帧内映射，我们分别考虑了两个使用循环卷积和三维前向卷积的帧间映射。 $H_{2,i}^f$ 可由下得出：
在这里插入图片描述
其中， $\mathsf W_2^f$ 的大小为 $n_1×s_{w_2}×s_{w_2}×t_{w_2}×n_2$ ， $\mathsf U_2^f$ 的大小为 $n_2×s_{u_2}×s_{u_2}×n_2$ 。需要注意的是，两个隐藏层的推理可以看作是一个表征学习阶段。可以堆叠更多的隐藏层来增加网络的代表性。但是它会极大地增加网络的复杂度。
***输出层：***对低分辨率帧进行超分辨率处理时，其视觉内容不仅与前一时间步的相邻帧有关，而且与后一时间步的相邻帧有关。因此，本文使用两个方向的子网络分别沿时间轴的正反向对这些时间依赖性进行建模。通过在第二个隐藏层中获得的 $n_2$ 维特征图来共同预测高分辨率帧
在这里插入图片描述

实验

训练集和实施细节

网络通过最小化MSE损失函数来进行模型的学习。使用25个YUV格式的视频序列作为训练集（训练集链接）。对于测试集，先使用标准差为2的高斯滤波器对每个原始帧进行平滑处理，再使用双三次方法对帧进行因子降采样处理。

消融实验

不同的循环卷积滤波器大小：
在这里插入图片描述
由此可见，1×1是最优的，不仅PSNR高，需要的时间还短。
网络方向的消融实验：
无向（U）：该网络没有循环卷积，其3D前馈卷积的时间步长固定为1，类似于传统的二维卷积。
前向（F）：只考虑向前方向上的时间依赖性的前向子网中，通过使用每层滤波器数量的两倍（或四倍）来扩大模型大小。F w/o f是去除三维前馈卷积，F w/o r是去除循环卷积。
向后（B）：只在向后方向上考虑时间相关性的向后子网。
双向（F+B）：将前向和后向子网结合在一起的双向循环卷积网络。
在这里插入图片描述