视频P图新玩法:推理速度快近15倍,任意分辨率均可!太秀啦!

2023-10-09 20:59

本文主要是介绍视频P图新玩法:推理速度快近15倍,任意分辨率均可!太秀啦!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:量子位

众所周知:视频是可以P的

这不,在CVPR 2022收录的论文中,就出现了这么一个P图神器,它可以分分钟给你上演各种人像消失大法,不留任何痕迹。

1dcbda29c360a0ce3773eee405250f20.gif

ab9c44575ce1bbc97927810ed9781cda.gif

f06c5847308b4578144977e751854e8f.gif

去水印、填补缺失更是不在话下,并且各种分辨率的视频都能hold住。

dc2ee7723f8d0657c9e5d5b3e7e3500b.gif

1620585a7780561642ad9c871d3aeede.gif

正如你所见,这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能

3ae6cac54e9b056890349829573c9bb5.png

 与SOTA方法的对比

同时它的推理时间和计算复杂表现也很抢眼:

前者比此前的方法快了近15倍,可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频;后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数

如此神器,什么来头?

改善光流法

目前很多视频修复算法利用的都是光流法 (Optical flow)。

也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息。

这个方法的缺点很明显:计算量大、耗时长,也就是效率低。

为此,研究人员设计了三个可训练模块,分别为流完成 (flow completion)、特征传播 (feature propagation)和内容幻想(content hallucination),提出了一个流引导(flow-guided)的端到端视频修复框架:

E2FGVI

这三个模块与之前基于光流的方法的三个阶段相对应,不过可以进行联合优化,从而实现更高效的修复过程。

8d221e147eb6e89aae1392b10984c684.png

具体来说,对于流完成模块,该方法直接在mask viedo中一步完成操作,而不是像此前方法采用多个复杂的步骤。

对于特征传播模块,与此前的像素级传播相比,该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作,传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块,研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。

同时该模块还考虑了局部和非局部时间邻域,从而获得更具时间相关性的修复结果。

835dae2087bce8ee1e3596002ab8a13c.png

作者:希望成为新基线

定量实验:

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验,将他们的方法与之前的视频修复方法进行了比较。

如下表所示,E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法,能够生成变形更少(PSNR和SSIM)、视觉上更合理(VFID)和时空一致性更佳(Ewarp)的修复视频,验证了该方法的优越性。

f21845935ac2b33178363e60c687135d.png

此外,E2FGVI也具有最低的FLOPs值(计算复杂度),尽管训练是在432 × 240分辨率的视频上进行,它的HQ版本做到了支持任意分辨率。

0dada1407ee8768e97ea656fa97cd33f.png

定性实验:

研究人员首先选择了三种最有代表性的方法,包括CAP、FGVC(基于光流法)和Fuseformer(入选ICCV 2021),进行对象移除(下图前三行)和缺失补全(下图后两行)的效果比较。

可以发现,前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊,但E2FGVI可以生成相对真实的纹理和结构信息。

c32cede4c97b259db133a170d1159cb8.png

此外,它们还选用了5种方法进行了用户研究,结果大部分人都对E2FGVI修复后的效果更满意。

综上,研究人员也表示,希望他们提出的方法可以成为视频修复领域新的强大基线。

作者介绍

0828cd1ac203e2cd1535b0fde645ae9f.png

E2FGVI由南开大学和海思合作完成。

一作Li Zhen为南开大学博士生,共同一作Lu ChengZe也来自南开。

通讯作者为南开大学计算机学院教授程明明,主要研究方向是计算机视觉和图形学。

目前,E2FGVI的代码已经开源,作者也提供了Colab实现,未来还将在Hugging Face给出demo。

论文地址:
https://arxiv.org/abs/2204.02663

GitHub主页:
https://github.com/MCG-NKU/E2FGVI

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 分层级联Transformer!苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度!

  • 清华姚班教师劝退文:读博,你真的想好了吗?

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-CVPR2022论文分享交流群!

大家好,这是CVPR2022论文分享群里,群里会第一时间发布CVPR2022的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

9739ec659606b9f7777e9e3002514cfd.png

👆 长按识别,邀请您进群!

这篇关于视频P图新玩法:推理速度快近15倍,任意分辨率均可!太秀啦!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/175527

相关文章

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单

《Springboot的ThreadPoolTaskScheduler线程池轻松搞定15分钟不操作自动取消订单》:本文主要介绍Springboot的ThreadPoolTaskScheduler线... 目录ThreadPoolTaskScheduler线程池实现15分钟不操作自动取消订单概要1,创建订单后

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo