论文阅读——Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

本文主要是介绍论文阅读——Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

之前有一段时间看了挺多深度学习方面的论文,但是由于时间方面的问题一直没来得及进行总结。最近一段时间突发奇想把自己看论文时的学习笔记给记录一下,由于之前没写过博文,所以排版可能会有点emmm...一言难尽。专业方面的知识,如果有理解不到位的地方欢迎各位大佬指教。

Abstract

  • 最近,使用卷积网络实现超分辨率的研究集中在最小化均方重构误差这一方向。这种方法可达到较高的峰值信噪比,但是恢复出的图片缺乏纹理细节。
  • 文章提出了一种SRGAN网络,基于感知相似进行对抗训练,使网络可以从低分辨率图像中恢复图像纹理,并在平均意见得分(MOS)测试中获得优异成绩。

1、Introduction

这一部分主要是介绍了近来一些超分辨率图像恢复的方法和所遇到的问题并提出自己的解决方法。

  • 有监督的图像超分辨率算法的目标为最小化恢复的高分辨率图像和实物图像的均方误差(MSE),最小化MSE问题可以转化为最大化峰值信噪比(PSNR)。
  • 但是由于MSE和PSNR主要用于处理像素级的图像差异,感知相关差异的能力非常有限,因此重构的纹理细节通常有缺失。
从左到右分别为双立方插值、优化MSE的深度残差网络、SRGAN网络和原始高分辨率图像的输出结果。很明显可以看到SRResNet网络输出的图像纹理过于平滑,而SRGAN可以较好地恢复图片纹理。
左边为SRGAN输出结果,右边为原图

1.1、相关工作

1.1.1、图像超分辨率

这一部分主要是提到了图像超分辨率领域的发展历程和相关工作:

  • 传统的图像超分辨率方法:线性,立方体或Lanczos滤波器,生成纹理极度光滑的图片。
  • 关注边界保护的方法:建立低分辨率和高分辨率图像信息间的复杂映射,通常依赖于训练数据。
  • Gu等人提出一种卷积稀疏编码的方法,通过处理整幅图像而不是重叠块提升了一致性。
  • ...(相关工作的内容太多了,而且写得很杂乱都可以写成一个综述了,具体看论文吧,害...)

1.1.2、卷积神经网络的设计

这一部分主要提到了卷积神经网络在计算机视觉领域有着越来越重要的作用。随着网络深度的增加,网络的精度也在不断提高,但是越深的网络越难训练,于是引入残差网络一概念,残差网络通过在残差块的输入层和输出层引入跳跃连接减小了深度网络的训练难度。

1.1.3、损失函数

文章这一部分主要提到基于像素的损失函数(比如MSE)很难处理恢复丢失的高频细节,因为它把所有可能的结果进行逐像素的平均以达到较好的MSE数值,但是肉眼上看,生成的图片却是过度平滑的。随后,文章还提到了一些人的处理方法:

  • 通过运用生成对抗网络GANs来生成图像(Mathieu 和 Denton 等人)。
  • 通过增大基于逐像素的均方误差和判别器误差来训练网络(Yu和Porikl等人)。
  • Li和wang提出用GANs来学习由一个风格到另一个风格的图片的映射(即风格转换)。
  • ...(其他的具体看论文原文)
红色为真实的图片,蓝色为基于MSE生成的图片,橙色为基于GAN生成的图片

1.2、贡献

文章的主要贡献为:

  • 文章中使用16个残差块构成的生成网络将图像的分辨率提升了4倍。
  • 提出一个基于GAN网络的SRGAN,并使用VGG网络特征图上计算出的损失值代替基于MSE的损失值。
  • 在三个公开基准数据集上进行测试,SRGAN取得了最好的平均意见得分(MOS),视觉效果最好。

2、Method

假设I^{HR}为原高分辨率图片,I^{LR}为其低分辨率的副本,I^{SR}为通过低分辨率图片I^{LR}生成的超分辨率图像,C为图像的色彩通道数目。GAN网络中生成器的大概设计思路:

  1. I^{HR}进行高斯滤波,并进行系数为r的下采样得到低分辨率图片I^{LR}
  2. 假设使用一个大小为W\times H\times C的张量来表示I^{HR},则I^{LR}可以使用rW\times rH\times C的张量来表示。
  3. 最终目标是获得生成函数G来得到从I^{LR}I^{HR}的映射,假设\theta _{G}=\left \{ W_{1:L};b_{1:L} \right \}为网络的权重和偏置,n=1,...,N为训练图片的序号,则可以得到以下表达式。

2.1、对抗网络结构

1、对抗网络的设计思路

文中给出的对抗网络表达式如上,以下是我自己的理解。G_{\theta _{G}}\left ( \cdot \right )可以成生成网络基于输入的低分辨率图片产生超分辨率输出,D_{\theta _{D}}\left ( \cdot \right )可以看成判别网络基于输入图像,输出该图像是否为真高分辨率图像的置信度值(0到1区间)。logD_{\theta _{D}}\left ( I^{HR} \right )\left可以看成使用判别网络判定真实高分辨率图像I^{HR}为真的置信度有多少,log\left (1-D_{\theta _{D}}\left ( G_{\theta _{G}}\left ( I^{LR} \right ) \right ) \right )\left则可以看成使用判别网络判定生成超分辨率图片为假的置信度有多少。可以看出整个GAN网络基于min-max问题进行优化。对于max问题,通过训练修改参数\theta _{D}使判别器可以将真实高分辨率图片判定为真而把生成的超分辨率图片判定为假(即强化判别器的判别性能)。对于min问题,通过修改参数\theta _{G}使生成器可以生成更逼真的图片来瞒过判别器。min-max问题交替训练得到逼真的结果。

2、生成器结构:

生成器网络的结构如图所示
k表示卷积核尺寸、n表示输出通道数、s为卷积步长(如k9n64s1表示3×3卷积核、64输出通道、步长为1的卷积层)

3、判别器结构:

判别器网络的结构如图所示

2.2、感知损失函数

SRGAN网络的损失函数由内容损失和对抗损失两部分构成。

2.2.1、内容损失

1、MSE损失

  • MSE损失函数是图片超分辨率用得最多的损失函数,其表达式如下所示。可以看出MSE损失函数的计算方式是使用高分辨图片I^{HR}与生成器生成的超分辨率图片I^{SR}逐像素计算欧式距离最后求和取平均。

2、感知损失

  • 感知损失是本论文中的一大亮点,其主要思想是使用一个VGG19网络对高分辨图片I^{HR}与生成器生成的超分辨率图片I^{SR}分别进行特征提取,并且对比相应特征图的差异。其表达式如下所示,W_{i,j}H_{i,j}分别为对应特征图的宽高,\phi_{i,j}为VGG19中第i个最大池化层前第j个卷积层输出的特征图。可以看出感知损失把VGG19网络中生成的特定层特征图拿出来,对I^{HR}I^{SR}生成的对应层特征图进行逐点计算欧式距离最后求和取平均。

2.2.2、对抗损失

  • 对抗损失的表达下如下图所示,主要的思想是让判别器在输入生成器生成的超分辨率图片I^{SR}后输出的置信度要尽可能低。

4、Discussion and future work

  • 从人类视觉系统角度出发,MSE和PSNR标准不能精确地评估图像质量(MSE和PSNR高的图像可能看起来并不真实)。
  • 更深的网络(残差模块数>16)可以更进一步增强SRResNet的性能,但会带来更大的计算负担。
  • 由于VGG19网络中更深的卷积层表现出远高于像素层的提取特征能力,使用l_{VGG/5.4}^{SR}作为感知损失函数可以得到更加逼真的结果。

5、Conclusion

  • 构建了一个深度残差网络SRResNet,并在使用PSNR标准衡量网络生成的超分辨率图片时达到了顶尖的效果。
  • 说明了使用MSE和PSNR标准衡量超分辨率图片时的局限性。
  • 构建了一个SRGAN网络,并引入感知损失的概念,使网络生成的超分辨率图片效果非常逼真。

这篇关于论文阅读——Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/241224

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin