【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020

本文主要是介绍【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要: 形变卷积,最开始被用来匹配物体的几何变形,最近在对齐多帧图像上表现出优良的性能,逐渐被用在视频超分任务里面。尽管展现出优良的性能,形变卷积做对齐的内在机制依然不明确。在本文中,我们仔细探究了形变对齐和经典的基于光流对齐的联系。我们展示了形变对齐可以被分解为空间warping和卷积的组合。这种分解显示了形变对齐和光流对齐在公式上的共性,但是在偏移多样性上有关键差异。我们进一步通过实验证明在形变对齐中增加多样性能够产生更好的对齐特征,因此极大地提升了视频超分输出的质量。基于我们的观察,我们提出了偏移保真度(offset-fidelity)损失,它使用光流引导偏移学习。

 

贡献点:

1.尽管形变对齐在运动补偿任务中已经展示了优良性能,用它替代卷积光流对齐。但是形变对齐与光流对齐之间的关系在学术上只有表面的讨论。这篇论文是第一个研究这两个重要概念之间的关系的文章。

2.我们系统地研究了偏移多样性的优点,我们展示了偏移多样性是提升对齐精度和超分表现的关键因素。

3. 基于我们的研究,我们针对形变对齐提出了偏移保真度(offset-fidelity)损失来稳定训练过程同时保护形变多样性。利用我们的损失,我们观察到有1.7dB的提升(视频超分任务中,PSNR评价指标)。

4.我们的公式化推理启发了一个更加灵活的方法去增加偏移多样性(在光流对齐方法中)。

 

方法

一、形变卷积             y\left ( p \right )=\sum_{k=1}^{n^2}w\left ( p_k \right ) \cdot x(p+p_k+\bigtriangledown p_k) ,  其中p_k表示在一个标准的nxn核的卷积里面的第k个采样偏移。例如当n=3, 我们有p_k\in \left \{ (-1,-1),(-1,0), ... ,(1,1) \right \}。我们设在p+p_k位置的第k个增加的学习偏移为\bigtriangledown p_k。x和y分别代表输入和输出特征。w为核的权重。形变卷积示意图如下图所示:

二、形变对齐    在视频超分任务中,比较关键的是建立连续帧之间的对应关系,为了后续的细节提取和融合。最近的研究越过传统的光流warp方式,使用形变卷积做特征对齐,示意图如下:

对应的公式表达形式为F^{\cdot }_{t+i}(p)=\sum_{k=1}^{n^2}w(p_k)\cdot F_{t+i}(p+p_k+\bigtriangledown p_k),   其中F_tF_{t+i}分别表示参考帧和临域帧的帧间特征。在形变对齐中,使用形变卷积将F_{t+i}F_t对齐。F^\cdot _{t+i}表示对齐后的特征。偏移\bigtriangledown p_k由几个卷积预测获得,卷积的输入是F_tF_{t+i}。参考帧只被用来预测偏移,并不直接参与卷积运算。

三、形变对齐与光流对齐之间的关系   我们通过展示形变卷积可以被分解为空间warping和标准卷积,来讨论形变对齐和光流对齐之间的联系。设x为输入特征,p_k+\bigtriangledown p_k为p位置的第k个偏移,被warp的特征为x_k(p)=x(p+p_k+\bigtriangledown p_k)。我们有

                                                                                                                y\left ( p \right )=\sum_{k=1}^{n^2}w(p_k)\cdot x_k(p)                                (3)

该公式等价于一个1\times 1\times n^2的标准3D卷积。因此,我们可以发现一个形变卷积运算过程等价于n^2独立的空间warping加一个1\times 1\times n^2的标准3D卷积操作,如图Figure2(b)所示。

Remarks:

1. 通过使用N\epsilon \mathbb{N}代替方程(3)中的n^2, 这个分解推导出DCN,在去掉限制(在每个组内的偏移量必须等于n^2)的条件下。因此,在剩余的叙述中,我们使用N表示每个组内的偏移量。

2. 通过将这N个warped特征在通道维堆叠,1x1xN的3D卷积能够被一个1x1的2D卷积代替。也就是说,DCN与下面的过程等价:N个独立的空间warp操作,然后连一个1x1的2D卷积。

从方程(3)可以看出,n=1的特殊情况等价于一个空间warping操作后接一个1x1的卷积操作。在运动补偿任务中,这种特殊情况对应一个光流对齐操作。也就是说,形变对齐与光流对齐共享相同的公式表达,除了偏移多样性上的差异。

Discussion: 前面的分析引导出几个有趣的探索。

1. 相比光流对齐,形变对齐在什么地方获得额外信息?这个分析指向偏移多样性,我们在Sec4的实验中证明了这个假设。

2. 更高的偏移多样性(offset diversity)总是好的吗?我们在Sec4.2证明:尽管输出质量在使用偏移多样性后总体上提升了,当偏移多样性比较大之后,输出表现达到一个天花板。因此,无限增加偏移多样性不能带来明显输出质量提升,这会降低模型的效率。在实践中,研究人员应该选择一个合适偏移多样性来平衡模型的表现性能与效率。

3. 我们能够在光流对齐中增加偏移多样性吗?不像形变对齐(偏移量必须等于核尺寸的平方),我们的公式化推导出有任意偏移量的形变对齐。结果是,这提供了一个灵活的方法将偏移多样性应用到光流对齐中。我们在实验中显示增加偏移多样性帮助基于光流的网络实现更好的超分表现。

四、偏移保真度(offset-fidelity)损失

       在这一小结,通过Sec3.3中展示的解析的引导,我们证明光流如何从形变对齐中获利------使用我们新提出的偏移保真度损失。由于形变对齐的不明确的偏移解释性,形变对齐通常使用随机初始化从零开始训练。随着网络容量(笔者的理解是网络参数)的提升,形变对齐的训练变得不稳定,并且偏移溢出严重地降低了模型的表现。相比之下,在基于光流的方法中,提出了各种各样的训练策略来提升对齐精度和收敛速度,比如采用光流网络结构、光流指导损失和光流预训练。

        考虑到Sec3.3中讨论的空间warping和形变卷积之间的关系,我们提出使用光流指导偏移的训练。特别地,我们提出偏移保真度损失来约束偏移(offsets),以便这些偏移不能从光流中偏离很多。更进一步,为了帮助视频超分任务中的优化和不同偏移量的学习,赫维赛德阶跃函数(Heaviside step function)被采用。网络损失函数如下:

\dot{L}=L+\lambda \sum_{n=1}^{N}L_n,其中    L_n=\sum_{i}^{ } \sum_{j}^{ } H\left ( \left | x_{n, ij}-y_{ij} \right |-t\right )\cdot \left | x_{n,ij}-y_{ij} \right |  , 这里 i, j 表示空间指示H\left ( \cdot \right )表示赫维赛德阶跃函数。\lambda和t表示控制偏移多样性的超参数。在Sec4.3中显示,我们的loss能够稳定训练和避免大模型的偏移溢出。

 

几点重要分析

1. 形变对齐与光流对齐   

        通过设置G=N=1(比如group=1和每组的偏移量=1),形变对齐学习到的偏移量类似于基于光流的对齐方法中的光流捕捉到的信息。特别地,当只有一个偏移量需要学习,模型会基于帧间的运动自动学习对齐特征。就像Fig4中显示的,学习到的偏移量与PWC-net中的光流评估结果高度相似。除了它们之间的高度相似性,学习到的偏移量与光流之间的不同点是不能忽视的------由于任务性质上的基础差异。特别地, PWC-net被训练来描述帧间的运动,而我们的baseline被训练来用于视频超分任务,在这种情况下光流可能不是对应帧之间的最优表达。在Fig4中,我们看到由学习的偏移warp出来的图像保存了更多场景内容。相比之下,由光流warp出的图像中出现了暗区域和伪影。

       特征对齐,前面提到的基于光流的对齐baseline执行特征warping。这不同与那些主流的去做图像warp而学习光流的光流方法。在这些方法中,光流包含小数值,因此在执行warping操作时需要插值。这不可避免地带来信息损失,特别是高频细节。结果是,模糊对齐的图像产生了子优化结果。最近的形变对齐方法尝试在特征层面执行对齐操作,实现了出色的结果。我们检查特征层面的warping的贡献-----通过用一个图像对齐模块替换我们的基于光流的baseline中的特征对齐模块。令人惊讶的是,除了结构上的接近,图像对齐带来0.84dB的降低。这表明特征层面上的warping操作对基于光流的对齐是有益的。

2. 偏移多样性的贡献(Contributions of Diversity)  我们感兴趣的是不同的类似光流的偏移是否对视频超分任务有益。这激励我们检查对齐特征和与它对应的表现。当只有一个偏移量时,对齐特征忍受有不可见区域导致的warping误差和不精确的运动评估。不准确的对齐特征不可避免地阻碍了信息的聚合,由此损害了子序列重建。相比之下,当有多个偏移量时,这些独立的warping特征是互相起作用的,在融合时它们提供了更好的对齐特征,因此缓解了单个偏移量的不精确对齐。如图Fig7所示,可以看到在单个偏移量的条件下,对齐特征是更不一致的。比如,在图像边缘,对应区域在相邻帧图像中并不存在,由单个偏移量warp的特征包含了一大片暗区域。相比之下,在15个偏移量条件下,补充的warp特征为融合提供了额外的信息,因此产生更加一致的特征和保护更多细节。

3. 增加偏移多样性 我们通过逐渐增加偏移量来检查模型的表现增益和尝试检查是否更多偏移总是带来更好的表现。不同N值的定性和定量比较如图fig8和fig9。

 

后记: 本文主要的贡献是分析了光流对齐和形变对齐的特点以及它们的联系,定量和定性地的分析了偏移多样性在视频超分任务中的作用。特别地,作者用实验证明了在光流方法中特征对齐相比图像对齐更有利于视频超分任务,这个结论被用到了BasicVSR视频超分网络中。笔者之前对该网络作了一篇介绍BasicVSR,感兴趣的读者可以看看。另外,本文是EDVR网络和BasicVSR网络的中间工作,与这两个网络都有紧密联系。建议读者阅读这两篇论文,对本文所提方法会有一个系统的认识。

reference

[1] Understanding Deformable Alignment in Video Super-Resolution

[2] BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

[3] Video Restoration with Enhanced Deformable Convolutional Networks

这篇关于【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/961900

相关文章

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html