视频超分:Deep Blind Video Super-resolution

2024-01-28 16:08

本文主要是介绍视频超分:Deep Blind Video Super-resolution,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
论文:深度盲视频超分辨率方法
代码:https://github.com/jspan/blindvsr(Page not found)
文章检索出自:2020 arXiv

看点

现有的视频超分算法通常假设退化过程中的模糊核是已知的,并且超分时没有对模糊核进行建模。然而,这种假设通常会导致超分图像过分平滑。为此,本文的主要贡献如下:
1)提出了一个有效的视频超分算法,能够同时估计模糊核,运动场和潜在图像
2)提出了一种有效的核估计方法和图像反卷积算法去恢复高质量图像
3)基准数据集和真实世界的视频上对所提出的算法进行了定量和定性的评估,达到了当时的SOTA
在这里插入图片描述

方法

overview

以三个相邻帧和初始化的输入核作为输入,首先使用 N k N_k Nk算法从初始化的输入核中估计模糊核,其中高斯模糊核被用作初始化核。然后,利用估计出的模糊核函数,利用图像反卷积方法生成中间HR图像 I ~ i ∗ \tilde I^*_i I~i。为了消除 I ~ i ∗ \tilde I^*_i I~i中的伪影,我们根据三个相邻帧的双三次采样结果计算光流,并生成扭曲图像( I ~ i + 1 b \tilde I^b_{i+1} I~i+1b I ~ i − 1 b \tilde I^b_{i-1} I~i1b),以指导在 N I N_I NI上的 I ~ i ∗ \tilde I^*_i I~i的修复。该算法以端到端的方式联合训练,生成更好的高质量图像。

在这里插入图片描述

动作模糊估计

本文开发了一个深度CNN模型 N k N_k Nk来有效地估计运动模糊核。网络 N k N_k Nk初始以高斯核作为输入,给定HR图像 I i I_i Ii和相应的LR图像 L i L_i Li,去优化如下目标:
在这里插入图片描述
其中 K ~ \tilde K K~表示 N k N_k Nk的输出,大小为15×15。运动模糊估计网络由两个全连接层组成,其中第一个全连接层后跟ReLU激活函数,第二个全连接层后跟Softmax激活函数以确保每个元素都是非负的并且所有元素的和为1。两个全连接层的大小分别设置为1000和225。

中间隐藏图复原

深度CNN模型可以有效地学习图像的先验信息。因此,恢复过程可以先用简单的图像反卷积模型估计中间的HR图像,然后使用深层CNN模型去除中间图像中的噪声和伪影来实现。
为了有效地获得中间HR图像,本文提出了一种基于图像形成的图像反卷积模型:
在这里插入图片描述
其中 ∣ ∣ ∇ I i ∣ ∣ 2 ||\nabla I_i||^2 Ii2用于使问题适定,∇表示梯度操作。根据经验设定γ=0.02。本文通过以下方法得到闭式解:

在这里插入图片描述
其中 D h D_h Dh D v D_v Dv表示水平和垂直方向上的微分滤波器矩阵。下图(c)展示中间层的效果。
在这里插入图片描述

光流估计

利用光流将相邻帧扭曲到参考帧上,为参考帧恢复提供更可靠的信息。本文使用PWC-Net作为光流估计算法,因为它的模型尺寸小,性能良好。给定任意三个相邻帧 L i − 1 L_{i−1} Li1 L i L_i Li L i + 1 L_{i+1} Li+1,首先使用双三次上采样分别获得 I i − 1 b I_{i-1}^b Ii1b I i b I_i^b Iib I i + 1 b I_{i+1}^b Ii+1b。然后,根据双三次上采样结果,使用PWC-Net( N 0 N_0 N0)计算光流。最后通过双线性插值方法,获取扭曲图像( I ~ i + 1 b \tilde I_{i+1}^b I~i+1b I ~ i − 1 b \tilde I_{i-1}^b I~i1b)。

引导图像复原

利用扭曲的图像作为指导,利用现有的深度CNN模型进行图像恢复,从 I ~ i ∗ \tilde I^*_i I~i估计出高质量的图像。首先分别通过space-to-depth 变换到低分辨空间,然后按通道拼接起来送入一个视频帧复原网络中进行精炼,输出最终的超分辨率帧,损失如下:
在这里插入图片描述

实验

数据集

使用REDS数据集,其中,240个视频用于训练,30个用于验证,30个用于测试

消融实验

对动作补偿模块的消融实验:
在这里插入图片描述
对运动模糊核的消融实验:
在这里插入图片描述

量化评估

在REDS测试集上:
在这里插入图片描述
在Vid4和SPMCS测试集上:
在这里插入图片描述

这篇关于视频超分:Deep Blind Video Super-resolution的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/654118

相关文章

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖