(2024 了,这文也太水了)审查 GAN 的 FID 和 SID 指标

2024-02-08 17:52

本文主要是介绍(2024 了,这文也太水了)审查 GAN 的 FID 和 SID 指标,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Reviewing FID and SID Metrics on Generative Adversarial Networks

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 相关工作

3. 方法

4. 实验


0. 摘要

生成对抗网络(GAN)模型的增长增强了图像处理的能力,并为许多行业提供了技术,可以产生逼真的图像转换。然而,由于该领域最近刚刚建立,因此存在一些新的评估指标,可以推动这一研究领域的发展。先前的研究表明,Fréchet Inception Distance(FID)在测试这些图像到图像的 GAN 在实际应用中的表现时是一种有效的度量标准。Signed Inception Distance(SID)是 2023 年创立的一种度量标准,它通过允许无符号距离来扩展 FID。本文使用了包含在 Pix2Pix 和CycleGAN 模型中的建筑外观、城市景观和地图的公共数据集。在训练后,这些模型使用度量生成性能的两个 Inception 距离指标进行评估。我们的研究结果表明,使用 SID 度量标准可以作为一种有效而高效的度量标准,用于补充甚至超过使用 FID 进行图像到图像 GAN 的能力。

2. 相关工作

Pix2Pix,一种早期的图像生成对抗网络(GAN),开创了高质量图像生成并影响了后续的模型。Isola 等人在 [11] 中引入了自动图像到图像的翻译,教授模型图像映射和多功能翻译的损失函数。它采用具有跳跃连接的 U-Net 生成器,避免低级信息瓶颈,如图 1 所示。 Pix2Pix 在小数据集上表现出色,并依赖于成对图像进行监督,并通过使用 dropout 来解决对噪声的利用不足。这提高了 Pix2Pix 在训练数据之外的适应性 [6]。 

然而,Pix2Pix GAN 缺乏循环一致性:循环一致性提高在两个领域之间进行图像翻译结果的一致性验证。因此,CycleGAN [12] 被引入,作为 Pix2Pix 的扩展,具有循环一致性。它通过将生成的图像的分布与真实图像匹配来处理无成对数据的图像到图像的翻译。它采用一个70x70 的 PatchGAN [12] 鉴别器和一个带有 6-9 残差块和分数步进卷积的生成器。CycleGAN 引入了对抗性和循环一致性损失,以在领域之间保持图像集的特征,如图 2 所示。与 Pix2Pix 不同,它使用自编码器结构,缺乏跳跃连接,并且不使用条件 GAN [6],[9],[12]。

3. 方法

FID 是一种用于评估 GAN 生成图像质量的流行度量标准。它变得流行,因为 FID 分数与人眼解释之间存在高度相关性 [10]。它测量生成图像数据集的多变量高斯分布与 GAN 试图复制的真实数据(地面真相)之间的距离,其公式等同于 2-Wasserstein 公式[10],[13]。

其中 (𝜇𝑟,𝛴𝑟) 和 (𝜇𝑔,𝛴𝑔) 分别表示地面真实数据和生成数据的特征近似的样本均值和协方差。Tr(·)表示矩阵迹 [10]。使用在 ImageNet 数据集上预训练的 InceptionV3 模型来提取数据集中每个图像的特征向量,从而得到数据集上特征的多变量高斯分布。为了实际目的,只考虑平均值和协方差,将真实数据和生成数据都建模为高斯分布。注意到 FID 不仅评估生成的图像,还评估人类对图像的评价,因为它提供了图像质量和多样性的整体评估 [8],[14],同时获取得分非常简单和快速。所有这些导致 FID 在 GAN 开发领域是一种相当常见的度量标准。FID 分数介于 0 到无穷大之间。当FID 分数低时,生成图像数据集的质量和多样性较大 [10]。图 3 可视化了如何在地面真实数据和生成图像数据集之间计算 Fréchet Inception 距离的过程。 

SID 指标扩展了 FID 的基本思想,并融合了 Precision-Recall 分析的改进。具有无符号距离分数的额外复杂性使其成为 FID 的可行替代方案 [8],[14]。SID 是一种现代统计方法,旨在使用公式 [8]捕捉人工生成图像中的变化和多样性。 

其中 N 是样本 batch 数量,𝐶'_𝑞,𝑟 是以变换分布 𝜓(𝑐𝑗) 为中心、边长为 r 的超立方体,Mx 是均匀采样在超立方体 𝐶'_𝑞,𝑟 内的测试点数量。 Φ(𝑥𝑙 ,𝜓(𝑐𝑗)) 是一个核函数,用于测量特征空间中两点之间的相互作用,受到它们之间距离和其他因素的影响。

SID 可能特别有帮助,特别是当我们希望评估生成图像中包含的各种内容和风格元素时。因此,SID 在评估 GAN 性能时对于评估介于负无穷到正无穷的区间上具有补充作用。由于 SID 集中于识别生成图像中的多样性和变化,而 FID 只评估生成图像与真实照片的相似程度,因此两者相辅相成。

4. 实验

这篇关于(2024 了,这文也太水了)审查 GAN 的 FID 和 SID 指标的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/691758

相关文章

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

2024/9/8 c++ smart

1.通过自己编写的class来实现unique_ptr指针的功能 #include <iostream> using namespace std; template<class T> class unique_ptr { public:         //无参构造函数         unique_ptr();         //有参构造函数         unique_ptr(

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

轻松录制每一刻:探索2024年免费高清录屏应用

你不会还在用一些社交工具来录屏吧?现在的市面上有不少免费录屏的软件了。别看如软件是免费的,它的功能比起社交工具的录屏功能来说全面的多。这次我就分享几款我用过的录屏工具。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  这个软件的操作方式非常简单,打开软件之后从界面设计就能看出来这个软件操作的便捷性。界面的设计简单明了基本一打眼你就会轻松驾驭啦

梳理2024年,螺丝钉们爱用的3款剪辑软件

这年头,视频到处都是,就跟天上的星星一样数不清。不管你是公司里的新面孔,还是职场上的老狐狸,学会怎么剪视频,就好比找到了赢的秘诀。不管是给上司汇报工作,展示你的产品,还是自己搞点小视频记录生活,只要是剪辑得漂亮,肯定能一下子吸引大家的目光,让人记得你。咱们今天就来侃侃现在超火的三款视频剪辑工具,尤其是PR剪辑,你肯定听说过,这货在剪辑界可是大名鼎鼎,用它剪视频,既专业又麻利。 NO1. 福昕轻松