本文主要是介绍GAN笔记_李弘毅教程(a)Basic Theory,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
这一章节主要讲的是GAN的一些基础知识
distribution在蓝色区域才能生成人脸,否则会很模糊。
那怎么找出这个distribution?
用最大似然估计,这里要有点相关基础。可见 https://www.jianshu.com/p/f1d3906e4a3e
这个过程相当于最小化KL散度。
以下这个过程有点像在凑KL散度的定义式,KL散度表征的是两个概率分布的差异,两者差异越小越好。
第六行后面被减的部分是自己加上去的。 P d a t a ( x ) {P_{data}}(x) Pdata(x)服从Gaussian分布,可以积分。
(为啥G输入的不是一个随机data?)
如何定义一个通用 P G {P_G} PG?不可能都定义成高斯。
把G化成一个network。让 P G {P_G} PG和 P d a t a {P_{data}} Pdata越接近越好——最小化KL散度。
如何计算出divergence?因为不知道 P G {P_G} PG和 P d a t a {P_{data}} Pdata的公式。
从 P G {P_G} PG和 P d a t a {P_{data}} Pdata中取样出来一些样本
怎么divergence?
通过D,写出一个目标函数。和二元分类有点像。
当很难区分蓝色星星和红色星星时,就无法再压低Loss。意味着它们已经很接近了,divergence很小。
(接下来一堆数学公式拉……)
当D为多少?目标函数越大?
把D代入右上角的式子里,最后一行分子和分母都同除以2,
并且提取出来:
得到:
坐标图表示,随着横坐标G的变化,选择不同的D会有不同的V。
替换 D i v ( P G , P d a t a ) Div({P_G},{P_{data}}) Div(PG,Pdata)
最大化 V ( G , D ) V(G,D) V(G,D)——在不同种G时,选择最大的V,即为最优。
最小化 max D V ( G , D ) \mathop {\max }\limits_D V(G,D) DmaxV(G,D)——即在三个最大的点上选择最小的那个V。在这个例子中应该为 G 3 {G_{\rm{3}}} G3。纵坐标零点可以理解为 P d a t a {P_{data}} Pdata,V到横坐标的距离就是表示G生成的样本和真实样本的距离,该距离越小越好。
如何解这个min max问题?
为什么说上图可以解决min max问题?
max D V ( G , D ) \mathop {\max }\limits_D V(G,D) DmaxV(G,D)可以先看成 L ( G ) L(G) L(G),然后用梯度下降,更新G。
为什么打问号?
因为这个过程不等同于JS散度。如下图,V反而变高了。
所以D要多训练几次,G要训练少一些。否则会过训练。
实际上,这个过程是用Sample的方式,这个过程相当于在train一个二维分类。D因通过sigmoid函数所以输出的值的范围是0~1。
算法总结如下对D train几步,得到相对的收敛,
Learning D的过程是在量出JS散度,Learning G的过程是在减小JS散度。
G不能训练太多次。
在实际执行中G的目标函数,一开始因为先训练D,所以G输出的再通过D会是很小的值。为了方便计算,如下图改下公式,趋势不变,整体向上移动,但斜率会变得完全相反。这样计算会比较容易。如果用下面的式子,二维分类的话label换一下就行。这里老师说的是train D时Maxmize的code。
最后让D会无法分辨出G生成的样本
demo:最后让蓝点(G生成的样本)与绿点(真是样本)结合
下图表示了一个矛盾点,右上角显示有data的地方有值,没data的地方没有值。而课程中的是这样的:有data的值比较大,没data的值比较小。
D train到后面,不知道会不会坏掉。
当G变的时候,到底应不应该sample上一次的G。
这篇关于GAN笔记_李弘毅教程(a)Basic Theory的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!