Automatic Temporally Coherent Video Colorization

本文主要是介绍Automatic Temporally Coherent Video Colorization，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

系列文章目录

视频着色领域相关论文《一》

文章目录

前言

一、着色概述

二、相关方法

1.基于涂鸦的方法

2、基于参考的方法

3、基于学习的方法

三、网络框架

1、生成器

2、鉴别器

四、结果分析

总结

前言

视频及图像的着色(Colorization)技术旨在为单张或多个序列的灰度图像添加颜色，使彩色图像具有感知意义和视觉吸引力。随着深度学习技术在计算机视觉领域的广泛使用，基于深度学习的着色方法也随之出现。

一、着色概述

视频及图像的着色(Colorization)技术旨在为单张或多个序列的灰度图像添加颜色，使彩色图像具有感知意义和视觉吸引力。

二、相关方法

图像着色方法主要分为三类：基于涂鸦的方法、基于参考图片的方法和基于学习的方法。

1、基于涂鸦的方法

基于涂鸦的方法指将局部用户提示(如，颜色点或笔画)戳博导整个灰度图像。颜色传播是基于一些低级的相似度测量。Levin等人的开创性工作假设亮度相似的相邻像素点应该具有相似的颜色，然后求解了传播稀疏涂鸦颜色的马尔可夫随机场(Markov Random Field)。Qu和Luan等人进一步的扩展了纹理的相似性，以及利用边缘减少颜色渗出(color bleeding)。这类方法的共同缺点是需要大量的人工工作且对专业技术的要求较高。

2、基于参考的方法

基于参考的方法采取了一种更直观的的方式，通过输入与灰度图像非常相似的参考来减少大量用户的工作。最早通过撇皮全局颜色统计来传播颜色，但由于忽略了空间像素信息，该方法在很多情况下的结果都差强人意。而近年来通过利用率从预先训练的VGG-19网络中提取的深度特征，在语义相关但视觉上不同的图像之间进行精确匹配，然后利用它进行风格迁移和颜色迁移。然而这类方法，虽然相较于基于涂鸦的方法更为便捷，但其着色结果十分依赖于参考图片的质量，如果选取的参考图像同目标图像不符，则上色结果将更为差强人意。

3、基于学习的方法

基于学习的方法完全依赖于学习来产生着色结果。利用CNN提取颜色特征并且预测结果，这些方法的关键区别在于损失函数，且不需要任何人工干预。还有一些方法使用GANs对灰度图像进行着色，GAN在高维空间(如彩色图像)上学习概率分布的能力的被广泛应用于计算机视觉任务；Isola等人提出使用基于条件GAN将输入图像映射到输出图像，他们通过结合L1损失和一种适应GAN的损失来训练网络。

三、网络框架

该网络是一个经典的CGan的结构，其网络结构如图所示，视频的着色是一个编码到解码的过程。

1、生成器

其生成器取自U-Net的U型结构，下采样的过程获取语义信息，与之对应的上采样的过程进行定位，它由2层下采样和8个残差块以及2层上采样组成，由于U-net对输入进行多次下采样提取特征后又进行上采样，这会导致数据的丢失，特别是对于稀疏的输入数据影响更大，即信息瓶颈问题。为解决该问题，在网络中引入了残差块结构，它不需要下采样来提取特征，而是允许在训练中跳过层，同时避免梯度消失问题。

网络的输入是当前帧的灰度图像，以及前一帧的彩色图像，在这里前一帧的彩色图像是作为网络的条件输入的，目的是引入帧间信息，保持时间一致性，两者在网络中会进行contact操作，最终生成当前帧的彩色图像。

2、鉴别器

判别器采用PatchGAN的结构，相当于对输入图像进行若干次N✖️N大小的裁剪，裁剪后的图像相当于一个patch输入鉴别器，每个patch都输出一个预测概率值，相当于判断输入的N✖️N大小区域是真是假的概率。直观上看它完全由卷积层构成，最后输出一个特征图即n✖️n的矩阵，取输出矩阵的均值作为判别真假概率的输出。作用是增强图像的局部纹理细节。