视频超分:Understanding Deformable Alignment in Video Super-Resolution

本文主要是介绍视频超分:Understanding Deformable Alignment in Video Super-Resolution,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
论文:理解视频超分辨率中的可变形对齐

摘要

可变形卷积最近在对齐多个帧方面表现出了令人信服的性能,并且越来越多地被用于视频超分辨率。尽管它有着显著的表现,但其潜在的对齐机制仍不清楚。本文仔细研究了变形对齐和经典的基于流的对齐之间的关系。贡献如下:
1.第一次正式研究与确立变形对齐与基于流的对齐这两个重要概念之间的关系。
2.系统地研究了偏移多样性。结果表明,偏移多样性是提高对齐精度和SR性能的关键因素。
3.提出了一个偏移精度损失在保持偏移多样性的同时稳定训练,得到了1.7dB的改进。
在这里插入图片描述

方法与实验

可变形卷积

首先简要回顾可变形卷积(DCN)。设 p k p_k pk是核大小为n=3的标准卷积中的第k个采样偏移量,则 p k ⊂ p_k\subset pk{(-1,-1),(-1,0),···,(1,1)}。 ∆ p k ∆p_k pk表示位置 p + p k p+p_k p+pk处的第k个附加学习偏移量。可变形卷积可表示为: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x\left(\boldsymbol{p}+\boldsymbol{p}_{k}+\Delta \boldsymbol{p}_{k}\right) y(p)=k=1n2w(pk)x(p+pk+Δpk)在实际应用中,可以利用C/G通道将C通道特征划分为G组特征,并对每个空间位置学习 n 2 n^2 n2×G偏移量。在DCNv2中,引入了调制掩模(modulation mask),以进一步增强操纵空间支持域的能力: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) ⋅ m k ( p ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x\left(\boldsymbol{p}+\boldsymbol{p}_{k}+\Delta \boldsymbol{p}_{k}\right) \cdot \boldsymbol{m}_{k}(\boldsymbol{p}) y(p)=k=1n2w(pk)x(p+pk+Δpk)mk(p)调制掩模可以看作是一个注意模块,它考虑了特征的相对重要性。

可变形对齐

可变形对齐应用可变形卷积将相邻特征与参考特征对齐。以参考特征和相邻特征为输入,通过卷积来预测偏移量。参考特征仅用于预测偏移量,不参与后续卷积,TDAN中的可变性对齐如下图:
在这里插入图片描述

可变形对齐与光流对齐的关系

上述(1)式的公式可表示为: y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x k ( p ) y(\boldsymbol{p})=\sum_{k=1}^{n^{2}} w\left(\boldsymbol{p}_{k}\right) \cdot x_{k}(\boldsymbol{p}) y(p)=k=1n2w(pk)xk(p)其中, x k ( p ) = x ( p + p k + Δ p k ) x_k(p)=x(p+p_k+\Delta p_k) xk(p)=x(p+pk+Δpk),相当于1×1× n 2 n^2 n2的标准三维卷积。如下图,核为3×3的可变形卷积可分解为9个空间扭曲和1个三维卷积。核权重用w表示。

在这里插入图片描述
对上式一般化,使用N来代替上式中的 n 2 n^2 n2,消除了偏移量必须为平方数的约束;通过在通道维数上叠加N个扭曲特征,1×1×N的3D卷积可以实现为1×1二维卷积。换句话说,DCN相当于N个单独的空间扭曲,然后是1×1的2D卷积。
当n=1时相当于空间扭曲,然后是1×1卷积。在运动补偿的情境中,这种特殊情况等于光流对齐。换言之,可变形和基于流的对齐共享相同的公式,但偏移量数量不同。
通过计算偏移量与光流的像素差,定量研究了偏移量与光流(PWC-Net)的相关性。如下图所示,超过80%的估计值与光流的差值小于一个像素。这表明,在G=N=1的情况下,可变形对齐实际上与基于流的对齐非常相似。
在这里插入图片描述
训练两个实例化——原始DCN和分解(扭曲加卷积)。如下图所示,实验表明这两个实例化实现了相似的性能。
在这里插入图片描述
通过逐渐增加偏移量来检查性能增益,并尝试检查更多偏移量是否总能带来更好的性能。下图显示了不同N的定性比较。特别地,当偏移量从1增加到5时,PSNR迅速增加。当N进一步增加时,峰值信噪比饱和在30.23dB左右,模型的性能与偏移多样性呈正相关(基于这六个数据点,Pearson相关系数=0.9418)。这一结果表明,偏移多样性实际上有助于性能的提升。
在这里插入图片描述

偏移精度损失

随着网络容量的增加,变形对齐的训练变得不稳定,偏移量的溢出严重降低了模型的性能。本文提出了一个偏移精度损失来约束偏移,使其不会偏离光流太多。此外,为了便于学习最佳和多样的偏移量,引入了Heaviside阶跃函数,函数定义如下: H ( t ) = { 0 , t < 0 1 , t ≥ 0 H(t)=\left\{\begin{array}{ll} 0, & t<0 \\ 1, & t \geq 0 \end{array}\right. H(t)={0,1,t<0t0损失如下: L ^ = L + λ ∑ n = 1 N L n \hat{L}=L+\lambda \sum_{n=1}^{N} L_{n} L^=L+λn=1NLn L n = ∑ i ∑ j H ( ∣ x n , i j − y i j ∣ − t ) ⋅ ∣ x n , i j − y i j ∣ L_{n}=\sum_{i} \sum_{j} H\left(\left|x_{n, i j}-y_{i j}\right|-t\right) \cdot\left|x_{n, i j}-y_{i j}\right| Ln=ijH(xn,ijyijt)xn,ijyij其中,L为训练损失。λ和t是控制偏移多样性的超参数。
变形对齐的训练是不稳定的。不稳定的训练过程会导致偏移量的溢出。为了避免偏移溢出,本文提出了偏移精度损失来约束学习的偏移量,使其不会偏离光流太多。另外,由于偏移多样性在视频SR中的重要性,我们允许网络学习最佳偏移量,只要它们与光流的差不超过某个阈值。在EDVR上进行了实验,额外的改善高达1.73dB。
在这里插入图片描述在这里插入图片描述

这篇关于视频超分:Understanding Deformable Alignment in Video Super-Resolution的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/654116

相关文章

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

RISC-V教学内容及短视频吸引因素

RISC-V 教学内容 在我的认知中,大多数人对RV仍然了解甚少,我想本实习岗位主要面向对 RV 不了解或了解很少的同学,帮助大家更好入门。 因此教学内容为: RISC-V 简要介绍;RISC-V 指令集知识简要讲解,指令集介绍,各个指令集的指令规则及指令运行演示,可以结合模拟器运行结果讲解更为直观;常见 RV 模拟器介绍,分别适用的场景。对于一些简单的 RV 模拟器可以展开讲解安装部署使用

YOLOv9摄像头或视频实时检测

1、下载yolov9的项目 地址:YOLOv9 2、使用下面代码进行检测 import torchimport cv2from models.experimental import attempt_loadfrom utils.general import non_max_suppression, scale_boxesfrom utils.plots import plot_o

google gemini1.5 flash视频图文理解能力初探(一)

市面能够对视频直接进行分析的大模型着实不多,而且很多支持多模态的大模型那效果着实也不好。 从这篇公众号不只是100万上下文,谷歌Gemini 1.5超强功能展示得知,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。能力覆盖: 跨模式理解和推理,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准

警惕!推广文章与视频的兼职骗局大揭秘

在互联网时代,我们常常会看到各种各样的推广兼职信息,承诺可以轻松赚钱,特别是在推广文章和视频方面。然而,在这些看似诱人的机会背后,往往隐藏着一些骗局。本文将为大家揭示这些骗局,帮助大家避免上当受骗。 一、骗局特征 1. **高额回报承诺**:骗子常常以高额的回报作为诱饵,声称只要转发文章、分享视频,就能获得丰厚的佣金或收益。然而,这种不切实际的高额回报往往是骗局的开始。 2. **简单操作

视频监控平台:支持交通部行业标准JT/T905协议(即:出租汽车服务管理信息系统)的源代码的函数和功能介绍及分享

目录 一、视频监控平台介绍 (一)概述 (二)视频接入能力介绍 (三)功能介绍 二、JT/T905协议介绍 (一)概述 (二)主要内容 1、设备要求 2、业务功能要求 3、技术功能要求 4、性能要求 5、接口要求 6、设备通信协议与数据格式 三、代码和解释 (一)代码和注释 (二)函数功能说明 1. 头文件保护 2. 包含必要的头文件 3. 引入命名空间std

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

FFplay源码分析-video_thread

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 上一篇文章已经讲解完了 audio_thread() 音频解码

WordPress视频主题Qinmei 2.0

WordPress视频主题Qinmei 2.0,简单漂亮的WP视频站源码 主题功能 可以根据豆瓣ID直接获取到其他详细信息,省去慢慢填写的痛苦;播放器支持直链,解析,m3u8格式,同时解析可匹配正则自动更改;新增动态页面,将评论样式改变作为信息流展示;分类展示,可根据评分排序等等; WordPress视频主题Qinmei 2.0

视频批量剪辑新境界:一键转码MP4至MP3并自动删除原文件,轻松优化存储空间与播放体验

随着数字媒体的飞速发展,视频文件已成为我们生活中不可或缺的一部分。然而,大量视频文件的累积不仅占据了宝贵的存储空间,而且在某些情况下,我们更希望提取视频中的音频内容。为了满足这一需求,我们推出了全新的视频批量剪辑方案,让你轻松实现MP4到MP3的转码,并自动删除原文件,优化存储空间,提升播放体验。 首先,让我们进入“视频剪辑高手”的主页面。简洁明了的界面设计,让您一眼就能找到所需的功能板