GAN的Loss的比较研究（3）——Wasserstein Loss理解（1）

本文主要是介绍GAN的Loss的比较研究（3）——Wasserstein Loss理解（1），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前两篇文章讨论了传统GAN的Loss，该Loss有些不足的地方，导致了GAN的训练十分困难，表现为：1、模式坍塌，即生成样本的多样性不足；2、不稳定，收敛不了。Martin Arjovsky在《Towards principled methods for training generative adversarial networks》、《Wasserstein GAN》文章中，对传统Loss造成训练困难的原因进行了讨论：因为真实样本的概率分布 $\mathbb P_r$ 与生成器生成的样本概率分布 $\mathbb P_g$ 的支撑集不同，又由于两者的流型（Manifold）的维度皆小于样本空间的维度，因而两者的流型基本上是不可能完全对齐的，因而即便有少量相交的点，它们在两个概率流型上的测度为0，可忽略，因而可以将两个概率的流型看成是可分离的，因而若是一个最优的判别器去判断则一定可以百分百将这两个流型分开，即无论我们的生成器如何努力皆获得不了分类误差的信息，这便是GAN训练困难的重要原因，有一篇博文（《令人拍案叫绝的Wasserstein GAN》）对上述两篇文章做了深入浅出的解释，总结一下是：
用KL Divergence和JS Divergence作为两个概率的差异的衡量，最关键的问题是若两个概率的支撑集不重叠，就无法让那个参数化的、可移动的概率分布慢慢地移动过来，以拟合目标分布。
于是文章提出一种新的Loss定义，即Wasserstein Distance，它可以作为两个概率分布的距离衡量指标，其定义如下：

W (ℙ r, ℙ g) = inf γ \in Π (ℙ r, ℙ g) E (x, y) \sim γ [‖ x - y ‖] (1)

$W(\mathbb P_r, \mathbb P_g)=\inf_{\gamma \in \Pi(\mathbb P_r, \mathbb P_g)} \mathbf E_{(x,y) \sim \gamma} [\Vert x-y \Vert] \qquad(1)$

W(ℙr,ℙg) W ( P r , P g ) $W(\mathbb P_r, \mathbb P_g)$ 是概率分布

ℙr,ℙg P r , P g $\mathbb P_r, \mathbb P_g$ 的距离，它是两个在同一空间上（即维度相同）的随机变量x，y之差的范数均值的下确界。假设

ℙr P r $\mathbb P_r$ 和

ℙr P r $\mathbb P_r$ 都是

ℝd R d $\mathbb R^d$ 上的概率分布，则两个空间相乘，构成

ℝd×d R d × d $\mathbb R^{d \times d}$ 概率空间，在此空间中，找出所有在

ℝd R d $\mathbb R^{d}$ 边界分布为

ℙr P r $\mathbb P_r$ 和在另外一边

ℝd R d $\mathbb R^{d}$ 边界分布为

ℙr P r $\mathbb P_r$ 的所有分布，它们构成一个集合，即

Π(ℙr,ℙg) Π ( P r , P g ) $\Pi(\mathbb P_r, \mathbb P_g)$ 。在此集合中，我们任意抽取一个元素，即

γ γ $\gamma$ ，它是一个在

ℝd×d R d × d $\mathbb R^{d \times d}$ 上的分布，由它抽样出的样本，皆在

ℝd×d R d × d $\mathbb R^{d \times d}$ 上，这些样本点分别投影在两个互补的

这篇关于GAN的Loss的比较研究（3）——Wasserstein Loss理解（1）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

GAN的Loss的比较研究（3）——Wasserstein Loss理解（1）

相关文章

深入理解Go语言中二维切片的使用

C# 比较两个list 之间元素差异的常用方法

从原理到实战深入理解Java 断言assert

spring IOC的理解之原理和实现过程

深入理解Apache Kafka(分布式流处理平台)

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

C#比较两个List集合内容是否相同的几种方法

深入理解Apache Airflow 调度器(最新推荐)

对postgresql日期和时间的比较

一文带你理解Python中import机制与importlib的妙用