EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记

本文主要是介绍EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  1. Introduction
    一种高效无监督的生成对抗网络,称为EnlightenGAN,可以在没有低/正常光图像对的情况下进行训练
  2. Difficulties
    1)同步捕获损坏和地面实况图像相同的视觉场景是非常困难甚至不切实际的(例如,光线和普通光照图像对在同一时间)
    2)从干净的图像中合成损坏的图像有时会有帮助,但这种合成的结果通常不够逼真,当训练后的模型应用于真实的低光图像时,会产生各种伪影
    3)特别对于低光增强问题,在低光图像中可能没有唯一的或定义良好的高光真实图像。例如,任何从黎明到黄昏拍摄的照片都可以被看作是在同一场景拍摄的午夜照片的高亮版本。
    考虑到上述问题,我们的首要目标是增强低光照片与空间变化的光照条件和过度/不足的曝光伪影,而配对的训练数据是不可用的。
  3. Contribution
    1)EnlightenGAN是第一个成功地将非配对训练引入低光图像增强的作品。这种训练策略消除了对成对训练数据的依赖,使我们能够使用来自不同领域的更大种类的图像进行训练。它还避免了以前的工作[15,5,16]隐式依赖的任何特定数据生成协议或成像设备的过度拟合,从而显著改进了现实世界的泛化。
    2)EnlightenGAN通过引入下列两个操作,获得了显著的性能。(i)一个处理输入图像中空间变化光照条件的全局-局部鉴别器结构;(ii)自正则化思想,通过自特征保留损失和自正则注意机制来实现。自正则化对于我们的模型的成功是至关重要的,因为在不配对的情况下,没有强有力的外部监督形式可用。
    3)通过综合实验,将EnlightenGAN与几种先进的方法进行了比较。测量结果包括视觉质量、无参考图像质量评估和人的主观调查。所有的结果都一致认可EnlightenGAN的优越性。此外,与现有的配对训练增强方法相比,EnlightenGAN被证明特别容易和灵活地用于增强不同领域的真实低光图像。
  4. Architecture
    在这里插入图片描述
  5. Method
    A. Global-Local Discriminators
    为了自适应地增强局部区域,在提高全局光照的同时,我们提出了一种新的全局-局部鉴别器结构,该结构使用PatchGAN进行真假鉴别。除了图像级全局鉴别器,我们还添加了一个局部鉴别器,通过从输出和真实的正常光照图像中随机裁剪局部小块,并学习区分它们是真实的(与真实图像)还是虚假的(与增强的输出)。这种全局-局部结构保证了增强图像的所有局部区域看起来都像真实的自然光,这对于避免局部过曝或低曝至关重要,我们的实验稍后将揭示这一点。
    此外,对于全局判别器,我们利用最近提出的相对判别器结构[35]估计真实数据比虚假数据更真实的概率,并指导生成器合成比真实图像更真实的伪图像。相对论判别器的标准函数是:在这里插入图片描述
    其中C表示判别器网络, x r x_r xr x f x_f xf分别表示真实数据和虚假数据的分布, σ \sigma σ表示sigmoid激活函数。我们稍微修改了相对论判别器,用最小二乘GAN(LSGAN)损失代替了sigmoid函数最后全局判别器D和生成器G的损失函数为:在这里插入图片描述
    对于局部判别器,我们每次从输出图像和真实图像中随机裁剪5个patch。这里我们采用原LSGAN作为对抗性损失,如下:在这里插入图片描述
    B. Self Feature Preserving Loss
    在我们的非配对设置中,我们建议改为限制输入的低光与其增强的正常光输出之间的VGG特征距离。这是基于我们的经验观察,当我们操纵输入像素强度范围时,VGG模型的分类结果不是很敏感,这与最近另一项研究[38]的结果一致。我们称其为自特征保留损失,是为了强调其自正则化的实用性使图像内容特征在增强前后保持不变。这与(成对的)图像恢复中感知缺失的典型用法不同,也是由我们的非成对设置激发的。具体地说,自特征保留损失 L S F P L_{SFP} LSFP定义为:
    在这里插入图片描述
    I L I^L IL表示输入的低光图像, G ( I L ) G(I^L) G(IL)表示生成器的增强输出。 ϕ i , j \phi_{i,j} ϕi,j表示在ImageNet上预先训练的VGG-16模型中提取的特征图, i i i表会第 i i i个最大池化, j j j表示第 i i i个最大池化之后的第 j j j个卷积层。 W i , j W_{i,j} Wi,j, H i , j H_{i,j} Hi,j是提取的特征图的尺寸大小。默认情况下,我们选择 i i i= 5 , j j j= 1 。
    对于我们的局部判别器,从输入和输出图像中裁剪出的局部小块也通过类似定义的自特征保留损失 L S F P L o c a l L^{Local}_{SFP} LSFPLocal进行正则化。此外,我们在VGG特征映射后添加了一个实例归一化层,然后再将其加入到 L S F P L_{SFP} LSFP L S F P L o c a l L^{Local}_{SFP} LSFPLocal中,以稳定训练。因此,训练EnlightenGAN的总体损失函数为:
    在这里插入图片描述
    C. U-Net Generator Guided with Self-Regularized Attention
    提出了一个易于使用的注意机制的U-Net生成器。直观地说,在空间变化光照条件下的低光图像中,我们总是希望对暗区域的增强大于对亮区域的增强,这样输出的图像既不会过度曝光也不会低曝。我们将输入RGB图像的光照通道 I I I标准化为[0,1],然后使用1 - I I I(元素差异)作为我们的自正则注意图。然后,我们调整注意图的大小以适应每个特征图,并将其与所有中间特征图以及输出图像相乘。我们强调,我们的注意力图也是一种自我规范的形式,而不是在监督下学习。尽管其简单,注意力引导显示始终如一地改善视觉质量。
    我们的注意力引导的U-Net生成器是由8个卷积块实现的。每个块由两个3*3个卷积层组成,然后是LeakyReLu和一个batch normalization层[42]。在上采样阶段,我们将标准反卷积层替换为一个双线性上采样层和一个卷积层,以减轻棋盘图的伪影
  6. EXPERIMENTS
    A. Dataset and Implementation Details
    因为EnlightenGAN具有独特的能力,可以用不配对的低光、常光图像进行训练,所以我们能够收集到更大尺度的unpair训练集,涵盖了不同的图像质量和内容。我们从[43,5]和[15,25]中发布的几个数据集中收集了914张低光1016张普通光图像,而不需要保存任何一对。手动检查选择,去除中等亮度图像所有这些照片都被转换成PNG格式,并调整到600*400像素。对于测试图像,我们选择了之前作品中使用的标准图像(NPE [19], LIME [21], MEF [44], DICM [45], VV,等)。
      EnlightenGAN先从头开始训练100次迭代,学习率为1e-4,然后再训练100次迭代,学习率线性衰减为0。我们使用Adam优化器,批大小设置为32。由于单路径GAN的轻量级设计,无需使用循环一致性,因此训练时间比基于循环的方法短得多。整个培训过程需要3个小时的Nvidia 1080Ti gpu。
    B. Ablation Study在这里插入图片描述
    C.Comparison with State-of-the-Arts
    C.1 Visual Quality Comparison
    在这里插入图片描述
    C.2 Human Subjective Evaluation在这里插入图片描述
    C.3 No-Referenced Image Quality Assessment在这里插入图片描述
    C.4 Adaptation on Real-World Images在这里插入图片描述
    C.5 PreProcessing for Improving Classification
    图像增强作为改善后续高级视觉任务的预处理,近年来受到越来越多的关注[28,49,50],并进行了一些基准测试工作[47,51,52]。我们研究了光增强对极暗(ExDark)数据集[53]的影响,该数据集是专门为低光图像识别而构建的。光增强后的分类结果可以作为语义信息保存的间接措施,如[28,47]所示。
      ExDark数据集由7363张低光图像组成,其中训练集图像3000张,验证集图像1800张,测试集图像2563张,注释为12个对象类。我们只使用它的测试集,使用我们的预处理EnlightenGAN作为预处理步骤,然后通过另一个在mageNet预训练的ResNet-50分类器。既不进行领域适应,也不进行联合培训。高级任务性能作为增强结果的固定语义感知度量。
      在低光测试集中,使用EnlightenGAN作为预处理,提高了分类精度,从22.02% (top-1)和39.46% (top-5)提高到23.94% (top-1)和40.92% (top-5)。这提供了一个侧面的证据,除了产生视觉上令人愉快的结果以外,EnlightenGAN还保留了语义细节。我们还用LIME和AHE进行了实验。LIME将准确率提高到23.32% (top-1)和40.60% (top-5),而AHE提高到23.04% (top-1)和40.37% (top-5)。
  7. Conclusion
    本文提出了一种新颖、灵活的无监督框架来解决低光增强问题。所提出的EnlightenGAN在没有配对训练数据的情况下,能够很好地进行操作和推广。在各种低光数据集上的实验结果表明,我们的方法在主观和客观指标下都优于多种最先进的方法。此外,我们证明EnlightenGAN可以很容易地适应真实的低噪声微光图像,并产生视觉上令人愉快的增强图像。我们未来的工作将探索如何在一个统一的模型中控制和调整基于用户输入的光增强级别。由于光增强的复杂性,我们也希望将算法与传感器的创新相结合。

这篇关于EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/175947

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓