MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记

本文主要是介绍MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 论文链接:https://arxiv.org/abs/2007.11803
  • 代码:https://github.com/Jia-Research-Lab/Simple-SR
  • ECCV2020

前言

当前VSR算法所存在的问题:1)通常采用光流来建立时间相关性,但是光流估计易有误,从而影响重建结果;2)VSR算法极少采用自然图像中本就存在的相似模式。
之前的VSR算法对对齐和回归两个阶段单独建模,本文将VSR看作帧内和帧间集成任务。本文所依据的现象:连续帧具有相似内容;同一帧内不同位置具有相似内容。
帧间相关性:为了验证作者的想法,实验设置:在MPI-Sintel Flow数据集上,用一种简单的patch匹配策略来估计光流。在得到top-K个最相似patch作为对应候选后,计算表现最好的一个与ground truth flow之间的欧式距离,如Figure 1(b)所示,当考虑更多的帧间相关性时,获取光流的误差更小。
帧内相关性:如Figure1(c)所示,在同一图像帧内,相似的内容所处的位置不一定是相邻的,非局部位置和不同尺度的相似图像块对于图像重建是具有意义的。

在这里插入图片描述
本文贡献如下:

  • 本文设计了一个多相关性集成网络(multi-correspondence aggregation network,MuCAN)端到端地进行视频超分辨率,在多个benchmark数据集上取得SOTA效果;
  • 设计了两个有效的模块充分利用时间和空间信息。时间多相关性集成模块(temporal multi-correspondence aggregation module ,TM-CAM)以稳健的方式构建运动补偿,交叉尺度非局部相关性集成模块(crossscale nonlocal-correspondence aggregation module ,CN-CAM)探索多个空间尺度的相似特征。
  • 引入edge-aware损失函数使得网络能够更好地重建边缘。

本文算法

本文整体结构如下图所示:
在这里插入图片描述

TM-CAN

在做运动补偿时,一方面要消除大的运动以构建相似内容间的相关性,另一方面亚像素级的运动对于提取细节也非常重要,TM-CAN模块是一个分层相关性集成策略能够同时处理大运动和小(亚像素级)运动。
TM-CAN如Figure3和Figure4所示:
在这里插入图片描述
F t − 1 l F_{t-1}^l Ft1l对齐到 F t l F_t^l Ftl为例,给定 F t l F_t^l Ftl中的一个图像patch f t l f_t^l ftl(表示为特征向量),首先在 F t − 1 l F_{t-1}^l Ft1l上找到其邻域,为方便计算,定义局部搜索域满足 ∣ p t − p t − 1 ∣ ⩽ d |p_t-p_{t-1}| \leqslant d ptpt1d,其中 p t p_t pt f t l f_t^l ftl的位置向量,对于 f t − 1 l f_{t-1}^l ft1l f t l f_t^l ftl,他们间的相关性定义如下:
在这里插入图片描述
在计算相关性后,从 F t − 1 l F_{t-1}^l Ft1l上以降序形式选择top-K(论文实验中K取4)个最相关的patches(即 f ‾ t − 1 , 1 l \overline f_{t-1,1}^l ft1,1l, f ‾ t − 1 , 2 l \overline f_{t-1,2}^l ft1,2l,…, f ‾ t − 1 , K l \overline f_{t-1,K}^l ft1,Kl),然后concat再集成如下:
在这里插入图片描述
Aggr以卷积层的形式实现。不为 f ‾ t l \overline f_{t}^l ftl中的每个元素值赋予相同的权重,采用 F t − 1 l F_{t-1}^l Ft1l F t l F_{t}^l Ftl的concat形式经过卷积层,生成pixel-adaptive权重。
如Figure2所示,当获取{ F ‾ t − N 0 , . . . , F ‾ t − 1 0 , F ‾ t 0 , F ‾ t + 1 0 , F ‾ t + N 0 \overline F_{t-N}^0,...,\overline F_{t-1}^0, \overline F_{t}^0,\overline F_{t+1}^0,\overline F_{t +N}^0 FtN0,...,Ft10,Ft0,Ft+10Ft+N0}后,所有这些特征通过卷积层和PixelShuffle层构建成两倍空间尺寸的特征图。

CN-CAM

CN-CAM模块结构如下所示:
在这里插入图片描述
多尺度特征是通过平均池化层获取的:
在这里插入图片描述
M t 0 M_t^0 Mt0中心位置于 p t p_t pt处的patch为 m t 0 m_t^0 mt0,在其他三个尺度进行非局部搜索:
在这里插入图片描述
其中 m ~ t s \widetilde m_t^s m ts表示 m t 0 m_t^0 mt0 M t s M_t^s Mts处最相关的patch,在集成之前,对每个紧邻patch进行自注意力以决定其信息是否有用,整个过程如下表示:
在这里插入图片描述
其中Aggr通过卷积层完成。

Edge-Aware Loss

VSR算法生成的HR图像边缘不规则,为解决这一问题,论文引入edge-aware loss。采用拉普拉斯滤波器进行边缘检测,ground-truth设为 I t H I_t^H ItH,通过检测器获取的边缘图为 I t E I_t^E ItE p t p_t pt位置的二值掩码表示为:
在这里插入图片描述
实验中阈值 δ \delta δ为1,设重建的HR图像为 I ^ t H \hat I_t^H I^tH,则训练loss为:
在这里插入图片描述
其中 L L L为Charbonnier损失:
在这里插入图片描述

实验

数据及评估准则

训练测试数据:REDS和Vimeo-90K
评估准则:PSNR和SSIM
数据增强:随机切割、镜像和旋转(旋转角度为90度或-90度)

消融实验

  1. 不同模块的作用
    在这里插入图片描述
    EAL: Edge-Aware loss
  2. TM-CAM中不同K值的影响:
    在这里插入图片描述
  3. comparision with SOTA Methods
    在这里插入图片描述

这篇关于MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/156088

相关文章

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2