【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020

本文主要是介绍【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要: 形变卷积,最开始被用来匹配物体的几何变形,最近在对齐多帧图像上表现出优良的性能,逐渐被用在视频超分任务里面。尽管展现出优良的性能,形变卷积做对齐的内在机制依然不明确。在本文中,我们仔细探究了形变对齐和经典的基于光流对齐的联系。我们展示了形变对齐可以被分解为空间warping和卷积的组合。这种分解显示了形变对齐和光流对齐在公式上的共性,但是在偏移多样性上有关键差异。我们进一步通过实验证明在形变对齐中增加多样性能够产生更好的对齐特征,因此极大地提升了视频超分输出的质量。基于我们的观察,我们提出了偏移保真度(offset-fidelity)损失,它使用光流引导偏移学习。

 

贡献点:

1.尽管形变对齐在运动补偿任务中已经展示了优良性能,用它替代卷积光流对齐。但是形变对齐与光流对齐之间的关系在学术上只有表面的讨论。这篇论文是第一个研究这两个重要概念之间的关系的文章。

2.我们系统地研究了偏移多样性的优点,我们展示了偏移多样性是提升对齐精度和超分表现的关键因素。

3. 基于我们的研究,我们针对形变对齐提出了偏移保真度(offset-fidelity)损失来稳定训练过程同时保护形变多样性。利用我们的损失,我们观察到有1.7dB的提升(视频超分任务中,PSNR评价指标)。

4.我们的公式化推理启发了一个更加灵活的方法去增加偏移多样性(在光流对齐方法中)。

 

方法

一、形变卷积             y\left ( p \right )=\sum_{k=1}^{n^2}w\left ( p_k \right ) \cdot x(p+p_k+\bigtriangledown p_k) ,  其中p_k表示在一个标准的nxn核的卷积里面的第k个采样偏移。例如当n=3, 我们有p_k\in \left \{ (-1,-1),(-1,0), ... ,(1,1) \right \}。我们设在p+p_k位置的第k个增加的学习偏移为\bigtriangledown p_k。x和y分别代表输入和输出特征。w为核的权重。形变卷积示意图如下图所示:

二、形变对齐    在视频超分任务中,比较关键的是建立连续帧之间的对应关系,为了后续的细节提取和融合。最近的研究越过传统的光流warp方式,使用形变卷积做特征对齐,示意图如下:

对应的公式表达形式为F^{\cdot }_{t+i}(p)=\sum_{k=1}^{n^2}w(p_k)\cdot F_{t+i}(p+p_k+\bigtriangledown p_k),   其中F_tF_{t+i}分别表示参考帧和临域帧的帧间特征。在形变对齐中,使用形变卷积将F_{t+i}F_t对齐。F^\cdot _{t+i}表示对齐后的特征。偏移\bigtriangledown p_k由几个卷积预测获得,卷积的输入是F_tF_{t+i}。参考帧只被用来预测偏移,并不直接参与卷积运算。

三、形变对齐与光流对齐之间的关系   我们通过展示形变卷积可以被分解为空间warping和标准卷积,来讨论形变对齐和光流对齐之间的联系。设x为输入特征,p_k+\bigtriangledown p_k为p位置的第k个偏移,被warp的特征为x_k(p)=x(p+p_k+\bigtriangledown p_k)。我们有

                                                                                                                y\left ( p \right )=\sum_{k=1}^{n^2}w(p_k)\cdot x_k(p)                                (3)

该公式等价于一个1\times 1\times n^2的标准3D卷积。因此,我们可以发现一个形变卷积运算过程等价于n^2独立的空间warping加一个1\times 1\times n^2的标准3D卷积操作,如图Figure2(b)所示。

Remarks:

1. 通过使用N\epsilon \mathbb{N}代替方程(3)中的n^2, 这个分解推导出DCN,在去掉限制(在每个组内的偏移量必须等于n^2)的条件下。因此,在剩余的叙述中,我们使用N表示每个组内的偏移量。

2. 通过将这N个warped特征在通道维堆叠,1x1xN的3D卷积能够被一个1x1的2D卷积代替。也就是说,DCN与下面的过程等价:N个独立的空间warp操作,然后连一个1x1的2D卷积。

从方程(3)可以看出,n=1的特殊情况等价于一个空间warping操作后接一个1x1的卷积操作。在运动补偿任务中,这种特殊情况对应一个光流对齐操作。也就是说,形变对齐与光流对齐共享相同的公式表达,除了偏移多样性上的差异。

Discussion: 前面的分析引导出几个有趣的探索。

1. 相比光流对齐,形变对齐在什么地方获得额外信息?这个分析指向偏移多样性,我们在Sec4的实验中证明了这个假设。

2. 更高的偏移多样性(offset diversity)总是好的吗?我们在Sec4.2证明:尽管输出质量在使用偏移多样性后总体上提升了,当偏移多样性比较大之后,输出表现达到一个天花板。因此,无限增加偏移多样性不能带来明显输出质量提升,这会降低模型的效率。在实践中,研究人员应该选择一个合适偏移多样性来平衡模型的表现性能与效率。

3. 我们能够在光流对齐中增加偏移多样性吗?不像形变对齐(偏移量必须等于核尺寸的平方),我们的公式化推导出有任意偏移量的形变对齐。结果是,这提供了一个灵活的方法将偏移多样性应用到光流对齐中。我们在实验中显示增加偏移多样性帮助基于光流的网络实现更好的超分表现。

四、偏移保真度(offset-fidelity)损失

       在这一小结,通过Sec3.3中展示的解析的引导,我们证明光流如何从形变对齐中获利------使用我们新提出的偏移保真度损失。由于形变对齐的不明确的偏移解释性,形变对齐通常使用随机初始化从零开始训练。随着网络容量(笔者的理解是网络参数)的提升,形变对齐的训练变得不稳定,并且偏移溢出严重地降低了模型的表现。相比之下,在基于光流的方法中,提出了各种各样的训练策略来提升对齐精度和收敛速度,比如采用光流网络结构、光流指导损失和光流预训练。

        考虑到Sec3.3中讨论的空间warping和形变卷积之间的关系,我们提出使用光流指导偏移的训练。特别地,我们提出偏移保真度损失来约束偏移(offsets),以便这些偏移不能从光流中偏离很多。更进一步,为了帮助视频超分任务中的优化和不同偏移量的学习,赫维赛德阶跃函数(Heaviside step function)被采用。网络损失函数如下:

\dot{L}=L+\lambda \sum_{n=1}^{N}L_n,其中    L_n=\sum_{i}^{ } \sum_{j}^{ } H\left ( \left | x_{n, ij}-y_{ij} \right |-t\right )\cdot \left | x_{n,ij}-y_{ij} \right |  , 这里 i, j 表示空间指示H\left ( \cdot \right )表示赫维赛德阶跃函数。\lambda和t表示控制偏移多样性的超参数。在Sec4.3中显示,我们的loss能够稳定训练和避免大模型的偏移溢出。

 

几点重要分析

1. 形变对齐与光流对齐   

        通过设置G=N=1(比如group=1和每组的偏移量=1),形变对齐学习到的偏移量类似于基于光流的对齐方法中的光流捕捉到的信息。特别地,当只有一个偏移量需要学习,模型会基于帧间的运动自动学习对齐特征。就像Fig4中显示的,学习到的偏移量与PWC-net中的光流评估结果高度相似。除了它们之间的高度相似性,学习到的偏移量与光流之间的不同点是不能忽视的------由于任务性质上的基础差异。特别地, PWC-net被训练来描述帧间的运动,而我们的baseline被训练来用于视频超分任务,在这种情况下光流可能不是对应帧之间的最优表达。在Fig4中,我们看到由学习的偏移warp出来的图像保存了更多场景内容。相比之下,由光流warp出的图像中出现了暗区域和伪影。

       特征对齐,前面提到的基于光流的对齐baseline执行特征warping。这不同与那些主流的去做图像warp而学习光流的光流方法。在这些方法中,光流包含小数值,因此在执行warping操作时需要插值。这不可避免地带来信息损失,特别是高频细节。结果是,模糊对齐的图像产生了子优化结果。最近的形变对齐方法尝试在特征层面执行对齐操作,实现了出色的结果。我们检查特征层面的warping的贡献-----通过用一个图像对齐模块替换我们的基于光流的baseline中的特征对齐模块。令人惊讶的是,除了结构上的接近,图像对齐带来0.84dB的降低。这表明特征层面上的warping操作对基于光流的对齐是有益的。

2. 偏移多样性的贡献(Contributions of Diversity)  我们感兴趣的是不同的类似光流的偏移是否对视频超分任务有益。这激励我们检查对齐特征和与它对应的表现。当只有一个偏移量时,对齐特征忍受有不可见区域导致的warping误差和不精确的运动评估。不准确的对齐特征不可避免地阻碍了信息的聚合,由此损害了子序列重建。相比之下,当有多个偏移量时,这些独立的warping特征是互相起作用的,在融合时它们提供了更好的对齐特征,因此缓解了单个偏移量的不精确对齐。如图Fig7所示,可以看到在单个偏移量的条件下,对齐特征是更不一致的。比如,在图像边缘,对应区域在相邻帧图像中并不存在,由单个偏移量warp的特征包含了一大片暗区域。相比之下,在15个偏移量条件下,补充的warp特征为融合提供了额外的信息,因此产生更加一致的特征和保护更多细节。

3. 增加偏移多样性 我们通过逐渐增加偏移量来检查模型的表现增益和尝试检查是否更多偏移总是带来更好的表现。不同N值的定性和定量比较如图fig8和fig9。

 

后记: 本文主要的贡献是分析了光流对齐和形变对齐的特点以及它们的联系,定量和定性地的分析了偏移多样性在视频超分任务中的作用。特别地,作者用实验证明了在光流方法中特征对齐相比图像对齐更有利于视频超分任务,这个结论被用到了BasicVSR视频超分网络中。笔者之前对该网络作了一篇介绍BasicVSR,感兴趣的读者可以看看。另外,本文是EDVR网络和BasicVSR网络的中间工作,与这两个网络都有紧密联系。建议读者阅读这两篇论文,对本文所提方法会有一个系统的认识。

reference

[1] Understanding Deformable Alignment in Video Super-Resolution

[2] BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

[3] Video Restoration with Enhanced Deformable Convolutional Networks

这篇关于【视频超分】《Understanding Deformable Alignment in Video Super-Resolution》 2020的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/961900

相关文章

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

中国341城市生态系统服务价值数据集(2000-2020年)

生态系统服务反映了人类直接或者间接从自然生态系统中获得的各种惠益,对支撑和维持人类生存和福祉起着重要基础作用。目前针对全国城市尺度的生态系统服务价值的长期评估还相对较少。我们在Xie等(2017)的静态生态系统服务当量因子表基础上,选取净初级生产力,降水量,生物迁移阻力,土壤侵蚀度和道路密度五个变量,对生态系统供给服务、调节服务、支持服务和文化服务共4大类和11小类的当量因子进行了时空调整,计算了

RISC-V教学内容及短视频吸引因素

RISC-V 教学内容 在我的认知中,大多数人对RV仍然了解甚少,我想本实习岗位主要面向对 RV 不了解或了解很少的同学,帮助大家更好入门。 因此教学内容为: RISC-V 简要介绍;RISC-V 指令集知识简要讲解,指令集介绍,各个指令集的指令规则及指令运行演示,可以结合模拟器运行结果讲解更为直观;常见 RV 模拟器介绍,分别适用的场景。对于一些简单的 RV 模拟器可以展开讲解安装部署使用

YOLOv9摄像头或视频实时检测

1、下载yolov9的项目 地址:YOLOv9 2、使用下面代码进行检测 import torchimport cv2from models.experimental import attempt_loadfrom utils.general import non_max_suppression, scale_boxesfrom utils.plots import plot_o

google gemini1.5 flash视频图文理解能力初探(一)

市面能够对视频直接进行分析的大模型着实不多,而且很多支持多模态的大模型那效果着实也不好。 从这篇公众号不只是100万上下文,谷歌Gemini 1.5超强功能展示得知,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。能力覆盖: 跨模式理解和推理,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准

警惕!推广文章与视频的兼职骗局大揭秘

在互联网时代,我们常常会看到各种各样的推广兼职信息,承诺可以轻松赚钱,特别是在推广文章和视频方面。然而,在这些看似诱人的机会背后,往往隐藏着一些骗局。本文将为大家揭示这些骗局,帮助大家避免上当受骗。 一、骗局特征 1. **高额回报承诺**:骗子常常以高额的回报作为诱饵,声称只要转发文章、分享视频,就能获得丰厚的佣金或收益。然而,这种不切实际的高额回报往往是骗局的开始。 2. **简单操作

视频监控平台:支持交通部行业标准JT/T905协议(即:出租汽车服务管理信息系统)的源代码的函数和功能介绍及分享

目录 一、视频监控平台介绍 (一)概述 (二)视频接入能力介绍 (三)功能介绍 二、JT/T905协议介绍 (一)概述 (二)主要内容 1、设备要求 2、业务功能要求 3、技术功能要求 4、性能要求 5、接口要求 6、设备通信协议与数据格式 三、代码和解释 (一)代码和注释 (二)函数功能说明 1. 头文件保护 2. 包含必要的头文件 3. 引入命名空间std

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

FFplay源码分析-video_thread

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 上一篇文章已经讲解完了 audio_thread() 音频解码

WordPress视频主题Qinmei 2.0

WordPress视频主题Qinmei 2.0,简单漂亮的WP视频站源码 主题功能 可以根据豆瓣ID直接获取到其他详细信息,省去慢慢填写的痛苦;播放器支持直链,解析,m3u8格式,同时解析可匹配正则自动更改;新增动态页面,将评论样式改变作为信息流展示;分类展示,可根据评分排序等等; WordPress视频主题Qinmei 2.0