视频超分:Understanding Deformable Alignment in Video Super-Resolution

本文主要是介绍视频超分:Understanding Deformable Alignment in Video Super-Resolution,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
论文:理解视频超分辨率中的可变形对齐

摘要

可变形卷积最近在对齐多个帧方面表现出了令人信服的性能,并且越来越多地被用于视频超分辨率。尽管它有着显著的表现,但其潜在的对齐机制仍不清楚。本文仔细研究了变形对齐和经典的基于流的对齐之间的关系。贡献如下:
1.第一次正式研究与确立变形对齐与基于流的对齐这两个重要概念之间的关系。
2.系统地研究了偏移多样性。结果表明,偏移多样性是提高对齐精度和SR性能的关键因素。
3.提出了一个偏移精度损失在保持偏移多样性的同时稳定训练,得到了1.7dB的改进。
在这里插入图片描述

方法与实验

可变形卷积

首先简要回顾可变形卷积(DCN)。设 p k p_k pk是核大小为n=3的标准卷积中的第k个采样偏移量,则 p k ⊂ p_k\subset pk{(-1,-1),(-1,0),···,(1,1)}。 ∆ p k ∆p_k pk表示位置 p + p k p+p_k p+pk处的第k个附加学习偏移量。可变形卷积可表示为: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x\left(\boldsymbol{p}+\boldsymbol{p}_{k}+\Delta \boldsymbol{p}_{k}\right) y(p)=k=1n2w(pk)x(p+pk+Δpk)在实际应用中,可以利用C/G通道将C通道特征划分为G组特征,并对每个空间位置学习 n 2 n^2 n2×G偏移量。在DCNv2中,引入了调制掩模(modulation mask),以进一步增强操纵空间支持域的能力: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) ⋅ m k ( p ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x\left(\boldsymbol{p}+\boldsymbol{p}_{k}+\Delta \boldsymbol{p}_{k}\right) \cdot \boldsymbol{m}_{k}(\boldsymbol{p}) y(p)=k=1n2w(pk)x(p+pk+Δpk)mk(p)调制掩模可以看作是一个注意模块,它考虑了特征的相对重要性。

可变形对齐

可变形对齐应用可变形卷积将相邻特征与参考特征对齐。以参考特征和相邻特征为输入,通过卷积来预测偏移量。参考特征仅用于预测偏移量,不参与后续卷积,TDAN中的可变性对齐如下图:
在这里插入图片描述

可变形对齐与光流对齐的关系

上述(1)式的公式可表示为: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x k ( p ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x_{k}(\boldsymbol{p}) y(p)=k=1n2w(pk)xk(p)其中, x k ( p ) = x ( p + p k + Δ p k ) x_k(p)=x(p+p_k+\Delta p_k) xk(p)=x(p+pk+Δpk),相当于1×1× n 2 n^2 n2的标准三维卷积。如下图,核为3×3的可变形卷积可分解为9个空间扭曲和1个三维卷积。核权重用w表示。

在这里插入图片描述
对上式一般化,使用N来代替上式中的 n 2 n^2 n2,消除了偏移量必须为平方数的约束;通过在通道维数上叠加N个扭曲特征,1×1×N的3D卷积可以实现为1×1二维卷积。换句话说,DCN相当于N个单独的空间扭曲,然后是1×1的2D卷积。
当n=1时相当于空间扭曲,然后是1×1卷积。在运动补偿的情境中,这种特殊情况等于光流对齐。换言之,可变形和基于流的对齐共享相同的公式,但偏移量数量不同。
通过计算偏移量与光流的像素差,定量研究了偏移量与光流(PWC-Net)的相关性。如下图所示,超过80%的估计值与光流的差值小于一个像素。这表明,在G=N=1的情况下,可变形对齐实际上与基于流的对齐非常相似。
在这里插入图片描述
训练两个实例化——原始DCN和分解(扭曲加卷积)。如下图所示,实验表明这两个实例化实现了相似的性能。
在这里插入图片描述
通过逐渐增加偏移量来检查性能增益,并尝试检查更多偏移量是否总能带来更好的性能。下图显示了不同N的定性比较。特别地,当偏移量从1增加到5时,PSNR迅速增加。当N进一步增加时,峰值信噪比饱和在30.23dB左右,模型的性能与偏移多样性呈正相关(基于这六个数据点,Pearson相关系数=0.9418)。这一结果表明,偏移多样性实际上有助于性能的提升。
在这里插入图片描述

偏移精度损失

随着网络容量的增加,变形对齐的训练变得不稳定,偏移量的溢出严重降低了模型的性能。本文提出了一个偏移精度损失来约束偏移,使其不会偏离光流太多。此外,为了便于学习最佳和多样的偏移量,引入了Heaviside阶跃函数,函数定义如下: H ( t ) = { 0 , t < 0 1 , t ≥ 0 H(t)=\left\{\begin{array}{ll} 0, & t<0 \\ 1, & t \geq 0 \end{array}\right. H(t)={0,1,t<0t0损失如下: L ^ = L + λ ∑ n = 1 N L n \hat{L}=L+\lambda \sum_{n=1}^{N} L_{n} L^=L+λn=1NLn L n = ∑ i ∑ j H ( ∣ x n , i j − y i j ∣ − t ) ⋅ ∣ x n , i j − y i j ∣ L_{n}=\sum_{i} \sum_{j} H\left(\left|x_{n, i j}-y_{i j}\right|-t\right) \cdot\left|x_{n, i j}-y_{i j}\right| Ln=ijH(xn,ijyijt)xn,ijyij其中,L为训练损失。λ和t是控制偏移多样性的超参数。
变形对齐的训练是不稳定的。不稳定的训练过程会导致偏移量的溢出。为了避免偏移溢出,本文提出了偏移精度损失来约束学习的偏移量,使其不会偏离光流太多。另外,由于偏移多样性在视频SR中的重要性,我们允许网络学习最佳偏移量,只要它们与光流的差不超过某个阈值。在EDVR上进行了实验,额外的改善高达1.73dB。
在这里插入图片描述在这里插入图片描述

这篇关于视频超分:Understanding Deformable Alignment in Video Super-Resolution的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/654116

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html

Verybot的几个视频

1、Verybot的运动控制                 http://v.youku.com/v_show/id_XNjYxNjg4MTM2.html           2、Verybot比较初步的网络视频监控           http://v.youku.com/v_show/id_XNjYxNjkyMjg0.html           3、V

java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频)

这是什么系统? 资源获取方式在最下方 java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频) 停车管理信息系统是为了提升停车场的运营效率和管理水平而设计的综合性平台。系统涵盖用户信息管理、车位管理、收费管理、违规车辆处理等多个功能模块,旨在实现对停车场资源的高效配置和实时监控。此外,系统还提供了资讯管理和统计查询功能,帮助管理者及时发布信息并进行数据分析,为停车场的科学