六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

2024-08-31 11:18

本文主要是介绍六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

   六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

生成对抗网络的评估目前仍以定性评估和一些可靠性较差的指标为主,这阻碍了问题的细化,并具有误导性的风险。本文讨论了多个 GAN 评估指标,并从多个方面对评估指标进行了实验评估,包括 Inception Score、Mode Score、Kernel MMD、Wasserstein 距离、Fréchet Inception Distance、1-NN 分类器。实验得出了综合性的结论,选出了两个表现优越的指标,该研究在定量评估、对比、改进 GAN 的方向上迈出了重要的一步。
论文:An empirical study on evaluation metrics of generative adversarial networks

 

论文链接:https://arxiv.org/abs/1806.07755

摘要:评估生成对抗网络(GAN)本质上非常有挑战性。本论文重新讨论了多个代表性的基于样本的GAN 评估指标,并解决了如何评估这些评估指标的问题。我们首先从一些使指标生成有意义得分的必要条件开始,比如区分真实对象和生成样本,识别模式丢弃(mode dropping)和模式崩塌(mode collapsing),检测过拟合。经过一系列精心设计的实验,我们对现有的基于样本的指标进行了综合研究,并找出它们在实践中的优缺点。基于这些结果,我们观察到,核最大均值差异(Kernel MMD)和1-最近邻(1-NN)双样本检验似乎能够满足大部分所需特性,其中样本之间的距离可以在合适的特征空间中计算。实验结果还揭示了多个常用GAN 模型行为的有趣特性,如它们是否记住训练样本、它们离学到目标分布还有多远。

引言

生成对抗网络(GAN)(Goodfellow et al., 2014)近年来得到了广泛研究。除了生成惊人相似的图像(Radford et al., 2015; Larsen et al., 2015; Karras et al., 2017; Arjovsky et al., 2017; Gulrajani et al., 2017),GAN 还创新性地应用于半监督学习(Odena, 2016; Makhzani et al., 2015)、图像到图像转换(Isola et al., 2016; Zhu et al., 2017)和模拟图像细化(Shrivastava et al., 2016)等领域中。然而,尽管可用的GAN 模型非常多(Arjovsky et al., 2017; Qi, 2017; Zhao et al., 2016),但对它们的评估仍然主要是定性评估,通常需要借助人工检验生成图像的视觉保真度来进行。此类评估非常耗时,且主观性较强、具备一定误导性。鉴于定性评估的内在缺陷,恰当的定量评估指标对于GAN 的发展和更好模型的设计至关重要。

或许最流行的指标是Inception ScoreSalimans et al., 2016),它使用外部模型即谷歌Inception 网络(Szegedy et al., 2014)评估生成图像的质量和多样性,该模型在大规模ImageNet 数据集上训练。一些其他指标虽然应用没有那么广泛,但仍然非常有价值。Wu et al. (2016) 提出一种采样方法来评估GAN 模型的对数似然,该方法假设高斯观测模型具备固定的方差。Bounliphone et al. (2015) 提出使用最大均值差异(MMD)进行GAN 模型选择。Lopez-Paz & Oquab (2016) 使用分类器双样本检验方法(一种统计学中得到充分研究的工具),来评估生成分布和目标分布之间的差异。

尽管这些评估指标在不同任务上有效,但目前尚不清楚它们的分数在哪些场景中是有意义的,在哪些场景中可能造成误判。鉴于评估GAN 非常有难度,评估评估指标则更加困难。大部分已有研究尝试通过展示这些评估指标和人类评估之间的关联性来证明它们的正当性。但是,人类评估有可能偏向生成样本的视觉质量,忽视整体分布特征,而后者对于无监督学习来说非常重要。

这篇论文综合回顾了有关基于样本的GAN 定量评估方法的文献。我们通过精心设计的一系列实验解决了评估评估指标的难题,我们希望借此回答以下问题:(1)目前基于样本的GAN 评估指标的行为合理特征是什么?(2)这些指标的优缺点有哪些,以及基于此我们应该优先选择哪些指标?实验观察表明MMD 1-NN 双样本检验是最合适的评估指标,它们能够区分真实图像和生成图像,对模式丢弃和崩塌较为敏感,且节约算力。

最后,我们希望这篇论文能够对在实践环境中选择、解释和设计GAN 评估指标构建合适的原则。所有实验和已检验指标的源代码均已公开,向社区提供现成工具来debug 和改进他们的GAN 算法。

源代码地址:https://github.com/xuqiantong/GAN-Metrics

1:基于样本的典型GAN 评估方法。

2.2 基于样本的距离度量

我们主要关注于基于样本的评估度量,这些度量方法都遵循图所示的一般设定。度量计算子是GAN 中的关键因素,本论文简要介绍了种表征方法:Inception 分数(Salimans et al., 2016)、Mode 分数(Che et al., 2016)、Kernel MMDGretton et al., 2007)、Wasserstein 距离、Fréchet Inception 距离(FIDHeusel et al., 2017)与基于1-最近邻(1-NN)的双样本测试(Lopez-Paz & Oquab, 2016)。所有这些度量方法都不需要知道特定的模型,它只要求从生成器中获取有限的样本就能逼近真实距离。

Inception 分数可以说是文献中采用最多的度量方法。它使用一个图像分类模型和在ImageNetDeng et al., 2009)上预训练的Inception 网络(Szegedy et al., 2016),因而计算:

其中p_M(y|x) 表示由模型在给定样本下预测的标签分布,

即边缘分布p_M(y|x) 在概率度量P_g 上的积分。p_M(y|x) 上的期望和积分都可以通过从P_g 中采样的独立同分布(i.i.d.)逼近。更高的IS 表示p_M(y|x) 接近于点密度,这只有在当Inception 网络非常确信图像属于某个特定的ImageNet 类别时才会出现,且p_M(y) 接近于均匀分布,即所有类别都能等价地表征。这表明生成模型既能生成高质量也能生成多样性的图像。Salimans et al. (2016) 表示Inception 分数与人类对图像质量的判断有相关性。作者强调了Inception 分数两个具体的属性:1KL 散度两边的分布都依赖于M2)真实数据分布P_r 甚至是其样本的分布并不需要使用。

Mode 分数是Inception 分数的改进版。正式地,它可以通过下式求出:

其中

为在给定真实样本下边缘标注分布在真实数据分布上的积分。与Inception 分数不同,它能通过KLp_M(y) || p_M(y*))散度度量真实分布P_r 与生成分布P_g 之间的差异。

Kernel MMD(核最大均值差异)可以定义为:

在给定一些固定的和函数下,它度量了真实分布P_r 与生成分布P_g 之间的差异。给定分别从P_r P_g 中采样的两组样本,两个分布间的经验性MMD 可以通过有限样本的期望逼近计算。较低的MMD 表示P_g 更接近与P_rParzen window estimate (Gretton et al., 2007) 可以被视为Kernel MMD 的特例。

P_r P_g 分布之间的Wasserstein 距离(推土机距离)可以定义为:

其中Γ(Pr, Pg) 表示边缘分布分别为Pr Pg 的所有联合分布(即概率耦合)集合,且d(x^r, x^g) 表示两个样本之间的基础距离。对于密度为pr pg 的离散分布,Wasserstein 距离通常也被称为推土机距离(EMD),它等价于解最优传输问题:

该式表示实践中WD(P_r, P_g) 的有限样本逼近。与MMD 相似,Wasserstein 距离越小,两个分布就越相似。

Fréchet Inception 距离(FID)是最近由Heusel et al. (2017) 引入并用来评估GAN 的度量方法。对于适当的特征函数φ(默认为Inception 网络的卷积特征),FID φ(P_r) φ(P_g) 建模为高斯随机变量,且其样本均值为µ_r µ_g、样本协方差为C_r C_g。两个高斯分布的Fréchet 距离(或等价于Wasserstein-2 距离)可通过下式计算:

1-最近邻分类器用于成对样本检验以评估两个分布是否相同。给定两组样本

,我们可以计算在S_r S_g 上进行训练的1-NN 分类器的留一(LOO)准确率,其中S_r 全部标注为正样本、S_g 全部标注为负样本。与常用的准确率不同,但|S_r|=|S_g|都非常大时,1-NN 分类器应该服从约为50% LOO 准确率,这在两个分布相匹配时能够达到。当GAN 的生成分布过拟合真实采样分布Sr 时,LOO 准确度将低于50%。在理论上的极端案例中,如果GAN 记忆住Sr 中的每一个样本,并精确地重新生成它,即在S_g=S_r 时,准确率将为零。因为Sr 中的每一个样本都将有一个来自S_g 的最近邻样本,它们之间的距离为零。1-NN 分类器成对样本检验族,理论上任意二元分类器都能采用这种方法。我们只考虑1-NN 分类器,因为它不需要特殊的训练并只需要少量超参数调整。

Lopez-Paz & Oquab (2016) 认为1-NN 准确率主要作为成对样本检验的统计量。实际上,将其分为两个类别来独立地分析能获得更多的信息。例如典型的GAN 生成结果,由于mode collapse 现象,真实和生成图像的主要最近邻都是生成图像。在这种情况下,真实图像LOO 1-NN 准确率可能会相对较低(期望):真实分布的模式通常可由生成模型捕捉,所以Sr 中的大多数真实样本周围都充满着由Sg 生成的样本,这就导致了较低的LOO 准确率;而生成图像的LOO 准确度非常高(不期望的):生成样本倾向于聚集到少量的模式中心,而这些模式由相同类别的生成样本包围,因此会产生较高的LOO 准确率。

3 GAN 评估指标实验

2:从真实图像和GAN 生成图像的混合集合中区分出真实图像。对于有判别力的指标,其分数应该随着混合集合中GAN 生成样本数量增加而增加。RIS RMS 失败了,因为在LSUN 上它们的分数随着S_g 中的GAN 生成样本数量增加而减少。在像素空间中Wasserstein 1-NN accuracy (real) 也失败了,因为它们的分数没有增加反而下降了。

3:模拟模式崩塌实验。指标分数应该增加,以反映随着更多模式向聚类中心崩塌真实分布和生成分布之间的不匹配。所有指标在卷积空间中都作出了正确的响应。而在像素空间中,Wasserstein distance 1-NN accuracy (real) 失败了,因为它们的分数没有增加反而下降了。

4:模拟模式丢弃实验。指标分数应该增加,以反映随着更多模式丢弃真实分布和生成分布之间的不匹配。所有指标(除了RIS RMS)都作出了正确的响应,因为在几乎所有模式都丢弃时它们仍然有轻微的上升。

5:关于每个指标对小量变换(旋转和平移)的鲁棒性的实验。所有指标应该对真实图像和变换后的真实样本保持不变,因为变换不会改变图像语义。所有指标都在卷积空间中作出了正确的响应,但不是像素空间。该实验证明像素空间中距离的不适应性。

6:不同指标在样本数作为轴的函数上的分数。完美指标应该带来real-real

real-fake

曲线之间的巨大差距,以利用尽可能少的样本区分真实分布和伪分布。与Wasserstein 距离相比,MMD 1-NN accuracy 判别真实图像和生成图像所需的样本量更少,而RIS LSUN 上完全失败,因为其在生成图像上的分数甚至优于(低于)真实图像。

8:检测生成样本过拟合的实验。随着更多的生成样本与训练集中的真实样本重叠,验证得分和训练得分之间的差距应该增加至信号过拟合(signal overfitting)。所有指标的行为都是正确的,除了RIS RMS,因为这两个的分数不会随着重叠样本数量的增加而增加。

讨论和结论

基于以上分析,我们可以总结这六个评估指标的优势和本质缺陷,以及它们在什么条件下可以生成有意义的结果。使用部分指标,我们能够研究过拟合问题(详见Appendix C)、在GAN 模型上执行模型选择,并基于精心挑选的样本对比不同模型(详见Appendix D),无需使用人类评估。

Inception Score 展示出生成图像的质量和多样性之间的合理关联,这解释了其在实践中广泛应用的原因。但是,它在大部分情况下并不合适,因为它仅评估P_g(作为图像生成模型),而不是评估其与P_r 的相似度。一些简单的扰动(如混入来自完全不同分布的自然图像)能够彻底欺骗Inception Score。因此,它可能会鼓励模型只学习清晰和多样化图像(甚至一些对抗噪声),而不是P_r。这也适用于Mode Score。此外,Inception Score 无法检测过拟合,因为它无法使用留出验证集。

Kernel MMD 在预训练ResNet 的特征空间中运行时,性能惊人地好。它总是能够识别生成/噪声图像和真实图像,且它的样本复杂度和计算复杂度都比较低。鉴于这些优势,即使MMD 是有偏的,但我们仍推荐大家在实践中使用它。

当距离在合适的特征空间中进行计算时,Wasserstein 距离的性能很好。但是,它的样本复杂度很高,Arora 等人2017 年也发现了这一事实。另一个主要缺陷是计算Wasserstein 距离所需的实践复杂度为O(n^3),且随着样本数量的增加而更高。与其他方法相比,Wasserstein 距离在实践中作为评估指标的吸引力较差。

Fréchet Inception Distance 在判别力、鲁棒性和效率方面都表现良好。它是GAN 的优秀评估指标,尽管它只能建模特征空间中分布的前两个moment

1-NN 分类器几乎是评估GAN 的完美指标。它不仅具备其他指标的所有优势,其输出分数还在[0, 1] 区间中,类似于分类问题中的准确率/误差。当生成分布与真实分布完美匹配时,该指标可获取完美分数(即50% 的准确率)。从图中可以看到典型GAN 模型对真实样本(1-NN accuracy (real))的LOO 准确率较低,而对生成样本(1-NN accuracy (fake))的LOO 准确率较高。这表明GAN 能够从训练分布中捕捉模型,这样分布在模式中心周围的大部分训练样本的最近邻来自于生成图像集合,而大部分生成图像的周围仍然是生成图像,因为它们一起崩塌。该观测结果表明模式崩塌问题在典型GAN 模型中很普遍。但是,我们还注意到这个问题无法通过人类评估或广泛使用的Inception Score 评估指标来有效检测到。

总之,我们的实证研究表明选择计算不同指标的特征空间至关重要。在ImageNet 上预训练ResNet 的卷积空间中,MMD 1-NN accuracy 在判别力、鲁棒性和效率方面都是优秀的指标。Wasserstein 距离的样本效率较差,而Inception Score Mode Score 不适合与ImageNet 差异较大的数据集。我们将发布所有这些指标的源代码,向研究者提供现成的工具来对比和改进GAN 算法。

基于这两个主要指标MMD 1-NN accuracy,我们研究了DCGAN  WGAN(详见Appendix C)的过拟合问题。尽管人们广泛认为GAN 对训练数据过拟合,但我们发现这只在训练样本很少的情况下才会发生。这提出了一个关于GAN 泛化能力的有趣问题。我们希望未来的研究能够帮助解释这一现象。

[参考]:https://www.jiqizhixin.com/articles/2018-07-02-3

这篇关于六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1123752

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

STM32(十一):ADC数模转换器实验

AD单通道: 1.RCC开启GPIO和ADC时钟。配置ADCCLK分频器。 2.配置GPIO,把GPIO配置成模拟输入的模式。 3.配置多路开关,把左面通道接入到右面规则组列表里。 4.配置ADC转换器, 包括AD转换器和AD数据寄存器。单次转换,连续转换;扫描、非扫描;有几个通道,触发源是什么,数据对齐是左对齐还是右对齐。 5.ADC_CMD 开启ADC。 void RCC_AD

PR曲线——一个更敏感的性能评估工具

在不均衡数据集的情况下,精确率-召回率(Precision-Recall, PR)曲线是一种非常有用的工具,因为它提供了比传统的ROC曲线更准确的性能评估。以下是PR曲线在不均衡数据情况下的一些作用: 关注少数类:在不均衡数据集中,少数类的样本数量远少于多数类。PR曲线通过关注少数类(通常是正类)的性能来弥补这一点,因为它直接评估模型在识别正类方面的能力。 精确率与召回率的平衡:精确率(Pr

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

生信圆桌x生信分析平台:助力生物信息学研究的综合工具

介绍 少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 生物信息学的迅速发展催生了众多生信分析平台,这些平台通过集成各种生物信息学工具和算法,极大地简化了数据处理和分析流程,使研究人员能够更高效地从海量生物数据中提取有价值的信息。这些平台通常具备友好的用户界面和强大的计算能力,支持不同类型的生物数据分析,如基因组、转录组、蛋白质组等。

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

一步一步将PlantUML类图导出为自定义格式的XMI文件

一步一步将PlantUML类图导出为自定义格式的XMI文件 说明: 首次发表日期:2024-09-08PlantUML官网: https://plantuml.com/zh/PlantUML命令行文档: https://plantuml.com/zh/command-line#6a26f548831e6a8cPlantUML XMI文档: https://plantuml.com/zh/xmi

2024年高教社杯数学建模国赛最后一步——结果检验-事关最终奖项

2024年国赛已经来到了最后一天,有必要去给大家讲解一下,我们不需要过多的去关注模型的结果,因为模型的结果的分值设定项最多不到20分。但是如果大家真的非常关注的话,那有必要给大家讲解一下论文结果相关的问题。很多的论文,上至国赛优秀论文下至不获奖的论文并不是所有的论文都可以进行完整的复现求解,大部分数模论文都为存在一个灰色地带。         白色地带即认为所有的代码均可运行、公开

Cmake之3.0版本重要特性及用法实例(十三)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+AOSP14系统攻城狮入门视频实战课 🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧