本文主要是介绍视频超分:Deep Blind Video Super-resolution,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
论文:深度盲视频超分辨率方法
代码:https://github.com/jspan/blindvsr(Page not found)
文章检索出自:2020 arXiv
看点
现有的视频超分算法通常假设退化过程中的模糊核是已知的,并且超分时没有对模糊核进行建模。然而,这种假设通常会导致超分图像过分平滑。为此,本文的主要贡献如下:
1)提出了一个有效的视频超分算法,能够同时估计模糊核,运动场和潜在图像
2)提出了一种有效的核估计方法和图像反卷积算法去恢复高质量图像
3)基准数据集和真实世界的视频上对所提出的算法进行了定量和定性的评估,达到了当时的SOTA
方法
overview
以三个相邻帧和初始化的输入核作为输入,首先使用 N k N_k Nk算法从初始化的输入核中估计模糊核,其中高斯模糊核被用作初始化核。然后,利用估计出的模糊核函数,利用图像反卷积方法生成中间HR图像 I ~ i ∗ \tilde I^*_i I~i∗。为了消除 I ~ i ∗ \tilde I^*_i I~i∗中的伪影,我们根据三个相邻帧的双三次采样结果计算光流,并生成扭曲图像( I ~ i + 1 b \tilde I^b_{i+1} I~i+1b, I ~ i − 1 b \tilde I^b_{i-1} I~i−1b),以指导在 N I N_I NI上的 I ~ i ∗ \tilde I^*_i I~i∗的修复。该算法以端到端的方式联合训练,生成更好的高质量图像。
动作模糊估计
本文开发了一个深度CNN模型 N k N_k Nk来有效地估计运动模糊核。网络 N k N_k Nk初始以高斯核作为输入,给定HR图像 I i I_i Ii和相应的LR图像 L i L_i Li,去优化如下目标:
其中 K ~ \tilde K K~表示 N k N_k Nk的输出,大小为15×15。运动模糊估计网络由两个全连接层组成,其中第一个全连接层后跟ReLU激活函数,第二个全连接层后跟Softmax激活函数以确保每个元素都是非负的并且所有元素的和为1。两个全连接层的大小分别设置为1000和225。
中间隐藏图复原
深度CNN模型可以有效地学习图像的先验信息。因此,恢复过程可以先用简单的图像反卷积模型估计中间的HR图像,然后使用深层CNN模型去除中间图像中的噪声和伪影来实现。
为了有效地获得中间HR图像,本文提出了一种基于图像形成的图像反卷积模型:
其中 ∣ ∣ ∇ I i ∣ ∣ 2 ||\nabla I_i||^2 ∣∣∇Ii∣∣2用于使问题适定,∇表示梯度操作。根据经验设定γ=0.02。本文通过以下方法得到闭式解:
其中 D h D_h Dh和 D v D_v Dv表示水平和垂直方向上的微分滤波器矩阵。下图(c)展示中间层的效果。
光流估计
利用光流将相邻帧扭曲到参考帧上,为参考帧恢复提供更可靠的信息。本文使用PWC-Net作为光流估计算法,因为它的模型尺寸小,性能良好。给定任意三个相邻帧 L i − 1 L_{i−1} Li−1、 L i L_i Li和 L i + 1 L_{i+1} Li+1,首先使用双三次上采样分别获得 I i − 1 b I_{i-1}^b Ii−1b、 I i b I_i^b Iib和 I i + 1 b I_{i+1}^b Ii+1b。然后,根据双三次上采样结果,使用PWC-Net( N 0 N_0 N0)计算光流。最后通过双线性插值方法,获取扭曲图像( I ~ i + 1 b \tilde I_{i+1}^b I~i+1b、 I ~ i − 1 b \tilde I_{i-1}^b I~i−1b)。
引导图像复原
利用扭曲的图像作为指导,利用现有的深度CNN模型进行图像恢复,从 I ~ i ∗ \tilde I^*_i I~i∗估计出高质量的图像。首先分别通过space-to-depth 变换到低分辨空间,然后按通道拼接起来送入一个视频帧复原网络中进行精炼,输出最终的超分辨率帧,损失如下:
实验
数据集
使用REDS数据集,其中,240个视频用于训练,30个用于验证,30个用于测试
消融实验
对动作补偿模块的消融实验:
对运动模糊核的消融实验:
量化评估
在REDS测试集上:
在Vid4和SPMCS测试集上:
这篇关于视频超分:Deep Blind Video Super-resolution的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!