阿里巴巴优酷视频增强和超分辨率挑战的冠军方案：VESR-Net

本文主要是介绍阿里巴巴优酷视频增强和超分辨率挑战的冠军方案：VESR-Net，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
作者单位：中国科学技术大学、微软亚洲研究院
挑战赛链接：https://tianchi.aliyun.com/competition/entrance/231711/rankingList/1
论文链接：https://arxiv.org/pdf/2003.02115.pdf
译者：Wangsy

看点

视频增强与超分辨率（VESR）旨在从噪声和低分辨率视频帧中恢复高分辨率的细节。为了推动研究从受现实世界退化影响的低质量视频中恢复高质量视频，优酷举办了视频增强和超分辨率挑战赛，以探索在线视频应用程序中真实退化的数据集的VESR解决方案。
本文介绍了VESR-Net，它在优酷VESR挑战赛中获得第一名。具体的说：

设计了一个独立的非局部（Separate NL）模块来有效地探索视频帧之间的关系并对视频帧进行融合；
设计了一个通道注意残差块（CARB），用于在VESR网络中捕获视频帧重构的特征映射之间的关系。

Youku-VESR挑战

挑战赛了收集1000个1080p视频片段，包括高分辨率和低分辨率视频对。该数据集包含了多种类型的内容，在在线视频观看应用中，低分辨率视频会受到不同噪声的影响。
挑战阶段：第一阶段，所有参与者得到200对LR和HR视频用于训练，50对LR视频用于评估。第二阶段，Youku发布650对LR和HR视频用于培训，100对LR视频用于验证。第二阶段的LR视频比第一阶段的视频退化更严重。在本文所提及的方法中，对于一共1000个视频片段，分割了50个视频用于评估，剩下的视频用于训练。
评估阶段：评估阶段定量指标是峰值信噪比（PSNR）和视频多方法评估融合（VMAF）。测试为前5个视频中的所有帧和剩下视频中的每隔5帧的下一帧。

方法

overview

VESR-Net由两部分组成：帧间融合的融合模块和帧内融合的重构模块。融合模块的目标是通过从相邻帧中提取有用信息，同时忽略时间冗余信息来融合相邻帧进行中间帧重建。因此，本文提出了一个独立的非局部模块来模拟视频特征之间的关系。在帧重建模块中，我们在残差块中引入了通道注意机制，以实现高效重建。
在这里插入图片描述
每个模块的具体网络架构如下表：

独立的非局部模块

在计算机视觉中的自注意机制称为非局部神经网络。然而，由于非局部神经网络中关系矩阵的高维性，非局部运算消耗了大量的参数，尤其是对于视频特征。因此，本文设计了一种新的称为独立非本地的模块，在较浅的网络中可以达到更好的性能。本文设计了三种类型的注意模块，以探索不同维度的全局上下文信息。首先，在三个分支中分别生成两个新的特征映射A1、A2、A3和B1、B2、B3。然后将它们reshape到C×T×(N×W)、T×H×W×C、C×H×W×T，通过矩阵乘法得到三个关系矩阵 $M1∈\mathbb R^{HW×HW}、M2∈\mathbb R^{C×C}、M3∈\mathbb R^{T×T}$ 。M1、M2和M3分别表示不同空间上下文、不同通道和不同时间步长之间的相似性。同时，我们将视频特征F输入到三个卷积层中，生成新的与B在同一空间中的特征映射D1、D2、D3。接下来，对D1，D2，D3的转置与M1，M2，M3进行矩阵乘法，得到结果E1，E2，E3。最后，我们在E1，E2，E3和F之间进行元素和运算，得到融合特征。
在这里插入图片描述