Automatic Temporally Coherent Video Colorization

2023-10-19 22:40

本文主要是介绍Automatic Temporally Coherent Video Colorization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章目录

视频着色领域相关论文 《一》

  • 文章目录

    前言

    一、着色概述

    二、相关方法

    1.基于涂鸦的方法

    2、基于参考的方法

    3、基于学习的方法

    三、网络框架

    1、生成器

    2、鉴别器

    四、结果分析

    总结 


前言

       视频及图像的着色(Colorization)技术旨在为单张或多个序列的灰度图像添加颜色,使彩色图像具有感知意义和视觉吸引力。随着深度学习技术在计算机视觉领域的广泛使用,基于深度学习的着色方法也随之出现

一、着色概述

       视频及图像的着色(Colorization)技术旨在为单张或多个序列的灰度图像添加颜色,使彩色图像具有感知意义和视觉吸引力

二、相关方法

图像着色方法主要分为三类:基于涂鸦的方法、基于参考图片的方法和基于学习的方法。

1、基于涂鸦的方法

基于涂鸦的方法指将局部用户提示(如,颜色点或笔画)戳博导整个灰度图像。颜色传播是基于一些低级的相似度测量。Levin等人的开创性工作假设亮度相似的相邻像素点应该具有相似的颜色,然后求解了传播稀疏涂鸦颜色的马尔可夫随机场(Markov Random Field)。Qu和Luan等人进一步的扩展了纹理的相似性,以及利用边缘减少颜色渗出(color bleeding)。这类方法的共同缺点是需要大量的人工工作且对专业技术的要求较高。

2、基于参考的方法

基于参考的方法采取了一种更直观的的方式,通过输入与灰度图像非常相似的参考来减少大量用户的工作。最早通过撇皮全局颜色统计来传播颜色,但由于忽略了空间像素信息,该方法在很多情况下的结果都差强人意。而近年来通过利用率从预先训练的VGG-19网络中提取的深度特征,在语义相关但视觉上不同的图像之间进行精确匹配,然后利用它进行风格迁移和颜色迁移。然而这类方法,虽然相较于基于涂鸦的方法更为便捷,但其着色结果十分依赖于参考图片的质量,如果选取的参考图像同目标图像不符,则上色结果将更为差强人意。

3、基于学习的方法

基于学习的方法完全依赖于学习来产生着色结果。利用CNN提取颜色特征并且预测结果,这些方法的关键区别在于损失函数,且不需要任何人工干预。还有一些方法使用GANs对灰度图像进行着色,GAN在高维空间(如彩色图像)上学习概率分布的能力的被广泛应用于计算机视觉任务;Isola等人提出使用基于条件GAN将输入图像映射到输出图像,他们通过结合L1损失和一种适应GAN的损失来训练网络。

三、网络框架

该网络是一个经典的CGan的结构,其网络结构如图所示,视频的着色是一个编码到解码的过程。

1、生成器

      其生成器取自U-Net的U型结构,下采样的过程获取语义信息,与之对应的上采样的过程进行定位,它由2层下采样和8个残差块以及2层上采样组成,由于U-net对输入进行多次下采样提取特征后又进行上采样,这会导致数据的丢失,特别是对于稀疏的输入数据影响更大,即信息瓶颈问题。为解决该问题,在网络中引入了残差块结构,它不需要下采样来提取特征,而是允许在训练中跳过层,同时避免梯度消失问题。

       网络的输入是当前帧的灰度图像,以及前一帧的彩色图像,在这里前一帧的彩色图像是作为网络的条件输入的,目的是引入帧间信息,保持时间一致性,两者在网络中会进行contact操作,最终生成当前帧的彩色图像。

2、鉴别器

     判别器采用PatchGAN的结构,相当于对输入图像进行若干次N✖️N大小的裁剪,裁剪后的图像相当于一个patch输入鉴别器,每个patch都输出一个预测概率值,相当于判断输入的N✖️N大小区域是真是假的概率。 直观上看它完全由卷积层构成,最后输出一个特征图即n✖️n的矩阵,取输出矩阵的均值作为判别真假概率的输出。 作用是增强图像的局部纹理细节。

四、结果分析

其实验结果如图所示:

       从表中而可以看出,相比于基础模型,TCVC不管是在FID和PSNR指标上都大大优于基础模型,同时艺术草图和灰度图像的结果对比也显示出灰度图像能给网络提供更多的纹理和细节信息,因此灰度图像的着色效果会更好。

总结

       以上就是TCVC的内容,文中提出了为数不多的用于全自动视频着色的方法,虽然相较于其他需要人工参与的方法效果较差,但其优点在于能实现全自动的着色,其亮点在于将前一帧的彩色结果作为条件引入到网络中提供时间信息,但由此也引出了它的缺点,即不能保证长时间的时间一致性。

这篇关于Automatic Temporally Coherent Video Colorization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/242842

相关文章

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

Segmentation简记-Multi-stream CNN based Video Semantic Segmentation for Automated Driving

创新点 1.RFCN & MSFCN 总结 网络结构如图所示。输入视频得到图像分割结果。 简单粗暴

Attribute Recognition简记1-Video-Based Pedestrian Attribute Recognition

创新点 1.行人属性库 2.行人属性识别的RNN框架及其池化策略 总结 先看看行人属性识别RNN结构: backbone是ResNet50,输出是每一帧的空间特征。这组特征被送到两个分支,分别是空间池化和时间建模。最后两种特征拼接。然后分类(FC)。 LSTM关注帧间变化。受cvpr《Recurrent Convolutional Network for Video-Based Person

UVa10361_Automatic Poetry(小白书字符串专题)

Automatic Poetry Input: standard input Output: standard output Time Limit: 2 seconds Memory Limit: 32 MB   “Oh God”, Lara Croft exclaims, “it’s one of these dumb riddles again!”   In Tomb R

3D Deeply Supervised Network for Automatic Liver Segmentation from CT Volumes

下面博主详细翻译了该篇论文,可以当做详尽的参考,并认真学习。 【参考】论文笔记:3D Deeply Supervised Network for Automatic Liver Segmentation from CT 数据集: MICCAI-SLiver07[1] 数据预处理: 作者没有讲数据预处理的过程。 CRF 轮廓精细修正: 参考上述博主博客。 参考文献: [1]Heimann,

VideoCrafter1:Open Diffusion models for high-quality video generation

https://zhuanlan.zhihu.com/p/677918122https://zhuanlan.zhihu.com/p/677918122 视频生成无论是文生视频,还是图生视频,图生视频这块普遍的操作还是将图片作为一个模态crossattention进unet进行去噪,这一步是需要训练的,svd除此之外,还将图片和noise做拼接,这一步,很多文生视频的方式通过通过这一步来扩展其成