阿里巴巴优酷视频增强和超分辨率挑战的冠军方案:VESR-Net

本文主要是介绍阿里巴巴优酷视频增强和超分辨率挑战的冠军方案:VESR-Net,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
作者单位:中国科学技术大学、微软亚洲研究院
挑战赛链接:https://tianchi.aliyun.com/competition/entrance/231711/rankingList/1
论文链接:https://arxiv.org/pdf/2003.02115.pdf
译者:Wangsy

看点

视频增强与超分辨率(VESR)旨在从噪声和低分辨率视频帧中恢复高分辨率的细节。为了推动研究从受现实世界退化影响的低质量视频中恢复高质量视频,优酷举办了视频增强和超分辨率挑战赛,以探索在线视频应用程序中真实退化的数据集的VESR解决方案。
本文介绍了VESR-Net,它在优酷VESR挑战赛中获得第一名。具体的说:

  1. 设计了一个独立的非局部(Separate NL)模块来有效地探索视频帧之间的关系并对视频帧进行融合;
  2. 设计了一个通道注意残差块(CARB),用于在VESR网络中捕获视频帧重构的特征映射之间的关系。
    在这里插入图片描述

Youku-VESR挑战

挑战赛了收集1000个1080p视频片段,包括高分辨率和低分辨率视频对。该数据集包含了多种类型的内容,在在线视频观看应用中,低分辨率视频会受到不同噪声的影响。
挑战阶段:第一阶段,所有参与者得到200对LR和HR视频用于训练,50对LR视频用于评估。第二阶段,Youku发布650对LR和HR视频用于培训,100对LR视频用于验证。第二阶段的LR视频比第一阶段的视频退化更严重。在本文所提及的方法中,对于一共1000个视频片段,分割了50个视频用于评估,剩下的视频用于训练。
评估阶段:评估阶段定量指标是峰值信噪比(PSNR)和视频多方法评估融合(VMAF)。测试为前5个视频中的所有帧和剩下视频中的每隔5帧的下一帧。

方法

overview

VESR-Net由两部分组成:帧间融合的融合模块和帧内融合的重构模块。融合模块的目标是通过从相邻帧中提取有用信息,同时忽略时间冗余信息来融合相邻帧进行中间帧重建。因此,本文提出了一个独立的非局部模块来模拟视频特征之间的关系。在帧重建模块中,我们在残差块中引入了通道注意机制,以实现高效重建。
在这里插入图片描述
每个模块的具体网络架构如下表:
在这里插入图片描述

独立的非局部模块

在计算机视觉中的自注意机制称为非局部神经网络。然而,由于非局部神经网络中关系矩阵的高维性,非局部运算消耗了大量的参数,尤其是对于视频特征。因此,本文设计了一种新的称为独立非本地的模块,在较浅的网络中可以达到更好的性能。本文设计了三种类型的注意模块,以探索不同维度的全局上下文信息。首先,在三个分支中分别生成两个新的特征映射A1、A2、A3和B1、B2、B3。然后将它们reshape到C×T×(N×W)、T×H×W×C、C×H×W×T,通过矩阵乘法得到三个关系矩阵 M 1 ∈ R H W × H W 、 M 2 ∈ R C × C 、 M 3 ∈ R T × T M1∈\mathbb R^{HW×HW}、M2∈\mathbb R^{C×C}、M3∈\mathbb R^{T×T} M1RHW×HWM2RC×CM3RT×T。M1、M2和M3分别表示不同空间上下文、不同通道和不同时间步长之间的相似性。同时,我们将视频特征F输入到三个卷积层中,生成新的与B在同一空间中的特征映射D1、D2、D3。接下来,对D1,D2,D3的转置与M1,M2,M3进行矩阵乘法,得到结果E1,E2,E3。最后,我们在E1,E2,E3和F之间进行元素和运算,得到融合特征。
在这里插入图片描述

通道注意残差块

重建模块中残差块中的通道注意机制是VESR高效重构和良好性能的基础。在CARB中,首先执行全局平均池化获取通道描述W。然后通过两个线性层得到通道权值Z,并将通道权值Z与视频特征X相乘,最后将相乘的结果与视频特征进行concat,输入进1×1卷积层得到最终输出。
在这里插入图片描述

实验

消融实验

对提出的独立非局部模块和通道注意残差块进行消融实验,并与EDVR s m a l l _{small} small进行对比。(此处没有给两个模块都没有的实验数据,如果两个模块都没有就比EDVR性能好,该论文就没有很大的意义了,不如去讲讲没有这两个模块为什么还会比EDVR性能好)
在这里插入图片描述

量化评估

为了公平比较,EDVR s m a l l _{small} small作为baseline采用了20个残差块,其参数数量与VESR-Net s m a l l _{small} small相当。在设计的独立非局部模块和通道注意残差块的帮助下,VESR-Net比EDVR网提高了0.22dB,并且计算复杂度较低。
在这里插入图片描述

这篇关于阿里巴巴优酷视频增强和超分辨率挑战的冠军方案:VESR-Net的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/654117

相关文章

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)

MyBatis延迟加载的处理方案

《MyBatis延迟加载的处理方案》MyBatis支持延迟加载(LazyLoading),允许在需要数据时才从数据库加载,而不是在查询结果第一次返回时就立即加载所有数据,延迟加载的核心思想是,将关联对... 目录MyBATis如何处理延迟加载?延迟加载的原理1. 开启延迟加载2. 延迟加载的配置2.1 使用

Android WebView的加载超时处理方案

《AndroidWebView的加载超时处理方案》在Android开发中,WebView是一个常用的组件,用于在应用中嵌入网页,然而,当网络状况不佳或页面加载过慢时,用户可能会遇到加载超时的问题,本... 目录引言一、WebView加载超时的原因二、加载超时处理方案1. 使用Handler和Timer进行超

.NET利用C#字节流动态操作Excel文件

《.NET利用C#字节流动态操作Excel文件》在.NET开发中,通过字节流动态操作Excel文件提供了一种高效且灵活的方式处理数据,本文将演示如何在.NET平台使用C#通过字节流创建,读取,编辑及保... 目录用C#创建并保存Excel工作簿为字节流用C#通过字节流直接读取Excel文件数据用C#通过字节

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖