【视频超分】《BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond》CUHK 2012

本文主要是介绍【视频超分】《BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond》CUHK 2012,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:相比图像超分任务,视频超分网络会设计更多模块,因为它多了一个时空维度。因此复杂的设计结构在视频超分网络中是常见的。本文希望解开其中的要点,重新思考指导视频超分网络设计的基础模块,比如网络传播、对齐、聚合和上采样。通过重新设计已有的模块,本文提出了一个简洁的视频超分网络设计框架(BasicVSR),实验显示本文的方法优于SOTA的视频超分方法。另外,本文在BasicVSR框架的基础上提出了IconVSR超分网络,为了促进信息聚合设计了两个模块(1)信息重新填充机制。(2)成对传播策略。

 

主要贡献点:

1. 重新分析了视频超分网络中的四大模块(网络传播、对齐、聚合和上采样)的作用,以及它们的优缺点。提出了一个基础的视频超分框架BasicVSR,并在Reds和Vimeo数据集上验证了该框架的有效性。

2. 扩展BasicVSR框架,设计了信息重新填充机制和成对传播策略,促进信息聚合,即IconVSR网络。

 

方法

首先,本文分析了视频超分网络中网络传播方式、对齐、聚合和上采样四大模块的作用,实验观察到选择合适的传播方式和对齐形式可以带来大的效率提升。实验观察如下图所示。

本文建议使用双向传播策略做特征信息聚集,使用光流评估计算相邻帧之间的相关性,并以此为依据做特征对齐。在以上分析和观察的基础上,本文提出了一种在速度和性能上更优的视频超分框架BasicVSR。实验显示相比SOTA方法,本文所提方法BasicVSR的性能更优(PSNR 高 0.61db,速度快24倍)。另外,拓展方法IconVSR的性能相比BasicVSR更好, PSNR高0.31db。主网络结构图如下图所示。

该网络的主要特点是1.使用双向传播策略加强特征信息传播;2.使用光流评估模块做特征对齐。另外两个模块使用通用结构:聚合模块使用通用特征concate结构,上采样模块使用通用的pixel-shuffle结构。下面分别分析这四个部分。

1. 信息传播形式。在视频超分网络中通常有三种形式:局部传播(滑动窗)、单向传播(递归)和双向传播(递归)。

      1.1 局部传播使用一个滑动窗中的LR图像作为输入,然后利用这些局部信息完成重建任务。因此,它能够访问的信息限制在这些局部相邻帧中。缺少远距离帧不可避免地限制了该网络的表达潜力。如下图所示,当K减少,视频段中包含的帧数越多,相应的PSNR越高。这说明长距离的视频帧信息有利于重建任务。

1.2 单向传播可以很好地解决上述问题。视频帧信息从第一帧到最后一帧逐帧传播。但是在这种传播形式下, 视频段中每帧接收的信息是不平衡的。第一帧无法接收后面帧的信息,而最后一帧可以接收前面所有帧的信息。因此,靠前的帧只能获得子优化结果。如下图所示,在早期时间步(0-5),单向传播的PSNR远低于双向传播,只使用部分帧(10-40)信息时比双向传播低0.5db左右。还可以看到,随着帧数增加,网络获得的视频帧信息增加,这种差距慢慢缩小。

1.3 双向传播可以很好的解决上述两个问题。BasicVSR采用典型的双向传播结构。假设输入LR图像X_i,它的相邻帧X_{i-1}X_{i+1}, 来自于前向和反向的相关特征h_{i-1}^{f}h_{i+1}^b。我们有

h_i^b=F_b\left ( x_i, x_{i+1}, h_{i+1}^b \right ) \\\rightarrow h_i^f=F_f\left ( x_i, x_{i-1}, h_{i-1}^f \right )

其中F_bF_f分别为反向分支和前向分支。

2. 对齐模块。在视频超分任务中空间对齐非常重要,因为它负责对齐那些高度关联但是空间位置不对齐的图像/特征,以进行后续聚合。主流的对齐模块可以分为三类:无对齐、图像对齐和特征对齐。

2.1 无对齐。现有的基于递归传播的视频超分方法通常不做对齐。但是不对齐的图像/特征阻碍了后续的特征聚合,导致了标准以下的结果。没有合适的对齐,传播的特征与输入视频帧在空间上不对齐。像卷积操作,只有相对较小的可接受域,它没有足够的能力来聚合响应位置的信息。实验显示相比有对齐的网络,无对齐网络产生了1.19db的下降。这表明采用大的可接受域,去聚合来自远距离帧的信息是非常重要的。

2.2 图像对齐。之前的工作通过计算光流,在重建之前warp图像的方式执行对齐操作。最近Chan[2]的工作显示将对齐操作从图像层面转移到特征层面能够带来显著的提升。实验显示相比特征层面对齐,图像层面对齐的PSNR低0.17db。

2.3 特征对齐。BasicVSR采用光流做空间对齐。不同于之前的工作(对图像执行warp操作),本文对中间特征执行warp操作,以获得更好的表现。然后对齐特征传给残差块做细节重建。

s_i^{\left \{ b,f \right \}}=S\left ( x_i, x_{i\pm 1} \right ),\\ h^{'}^{\left \{ b,f \right \}}=W\left ( h_{i\pm 1}^{\left \{ b,f \right \}},s_i^{\left \{ b,f \right \}} \right ),\\ h_i^{\left \{ b,f \right \}}=R_{\left \{ b,f \right \}}\left ( x_i, h^{'}_{i}^{\left \{ b,f \right \}} \right ),

其中S和W分别表示光流评估和空间warping模块。R_{\left \{ b,f \right \}}指残差块堆叠结构。

 

拓展网络IconVSR

以BasicVSR作为基础网络,我们介绍两个新颖的结构:信息重新填充机制和成对传播组元,分别用来缓解信息传播过程中的误差累积和促进信息聚合。下面分别介绍这两个模块。

1. 信息重新填充机制。在图像边界和阻塞区域(occluded regions)的不精确对齐是一个显著挑战,它会导致误差积累,特别是当我们在网络中采用长时期传播。为了缓解这些误差特征带来的不利影响,我们提出了一个信息重新填充机制,以做特征修正。如下图所示

在上图(a)中

                                                                                                                                                                 e=E\left ( x_{i-1},x_i,x_{i+1} \right ),

其中E和C分别对应特征提取器和卷积,I_{key}表示选择的关键帧的索引集合。修正后的特征传给残差模块,做进一步的修复。

h_i^{\left \{ b,f \right \}}=R_{\left \{ b,f \right \}}\left ( x_i, h^{'}_{i}^{\left \{ b,f \right \}} \right ).

本文中特征提取器和特征混合只作用于稀疏选择的关键帧,所以它的计算量不大。

2. 成对传播连接。如图Figure5(b)所示,我们基于部分信息计算在每个传播分支中的特征,从之前的帧或者未来的帧。然后让传播模块内部连接。

h_i^b=F_b\left ( x_i, x_{i+1}, h_{i+1}^b \right ),\\ h_i^f= F_f\left ( x_i,x_{i-1}, h_{i}^b,h_{i-1}^f \right ),\\ y_i=U\left ( h_i^f \right ).

通过成对传播连接,前向传播分支可以同时接收过去帧和未来帧的信息,这会带来更高质量的特征,由此获得更好的输出。

实验结果

与STOA方法的综合性能比较

 

reference

[1].BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond.

paper:https://arxiv.org/abs/2012.02181v1

[2].Understanding Deformable Alignment in Video Super-Resolution.

paper:https://arxiv.org/abs/2009.07265v1

这篇关于【视频超分】《BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond》CUHK 2012的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/961896

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html

Verybot的几个视频

1、Verybot的运动控制                 http://v.youku.com/v_show/id_XNjYxNjg4MTM2.html           2、Verybot比较初步的网络视频监控           http://v.youku.com/v_show/id_XNjYxNjkyMjg0.html           3、V