本文主要是介绍图文详解:stylegan1 与stylegan2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
-
模式映射网络(Mapping Network):
StyleGAN2中,z是从一个标准正态分布中采样的随机向量,它表示图像的潜在特征¹。z经过一个由8层全连接层组成的映射网络,被转换成一个中间潜在空间W,W空间的向量w可以控制图像的风格信息²。w被复制多份,每份对应一个合成网络的层,然后通过一个仿射变换,扩展为放缩因子和偏差因子
-
输入:512维的随机向量z
-
共8层全连接网络,每层输入和输出形状是:
- 512 -> 512
- 512 -> 512
- 512 -> 512
- 512 -> 512
- 512 -> 512
- 512 -> 512
- 512 -> 512
- 512 -> 512(w向量)
-
样式块(Style Block):
- 输入:w向量、特征图map(来自于上一层)、Noise
- w向量控制AdaIN
- 每层包含:3x3卷积、AdaIN、激活函数等
- 输出形状与输入特征图相同
-
生成网络(Synthesis Network):
-
输入常量512 x 4 x 4
-
从4x4逐步上采样到1024x1024:
- 4x4 -> 8x8
- 8x8 -> 16x16
- ......
- 1024x1024 -> 1024x1024
-
每次上采样接Style Block
-
Const Layer
-
输出尺寸与Synthesis Network每层相匹配的噪声,如:
- 512 x 4 x 4
- 512 x 8 x 8
- 512 x 16 x 16
AdaIN的细节
stylegan2修改动机
AdaIN的操作是对每个特征图的通道分别进行均值和方差的归一化,然后再乘以放缩因子和加上偏差因子。这样做的问题是,可能会破坏掉特征之间的相对大小信息,导致生成的图像出现水滴状的伪影¹。
第一次修改
在开始处移除了一些冗余的操作。
原StyleGAN在网络最开始对constant input做了bias和noise添加以及AdaIN操作,这是冗余的,可以移除。
将bias b和noise B的添加移到style block外面。
原来是在style block内部才加的b和B。现在移到style block外面,可以作用在normalized data上。
只调整每个特征图的standard deviation。
原AdaIN要分别调整mean和std。但作者发现仅调整std也足以达到style控制的效果。
这几点修改的目的是为了后面提出的weight demodulation做准备,使网络结构更加合理清晰。
总之,Revised architecture简化了冗余操作,并让network行为更加可预测。这为后面进一步改进夯实了基础。
第二次修改
Weight Demodulation方法中对特征图(signal)统计信息的假设,主要包括:
- 输入特征图中各元素相互独立(i.i.d.)
- 输入特征图元素服从均值为0,标准差为1的分布
- 卷积后输出特征图的标准差等于卷积核L2范数的平方根
- 卷积核L2范数反映了style modulation的影响
- 将卷积核按L2范数归一化,可以消除style modulation带来的影响
从 Revised architecture 到 Weight demodulation 的改进主要有以下步骤:
分析style block中的运算流程:
在Revised architecture中,style block包含Modulation、Convolution和Normalization三个步骤。
理解modulation的等效实现:
Modulation可以看作是缩放convolution weights:
w' = s ⊙ w
其中s是style,w和w'分别是原始和调制后的weights。
直接对weights进行Normalization:
可以跳过modulation层和normalization层,
直接对weights做类似normalization的调整:
w'' = w' / std(w')
std(w')可以看作是modulation s的影响。这样可以直接得到其效果。
合并为weight demodulation:
上面步骤合并起来就是weight demodulation,可以替代原来的Mod-Conv-Norm步骤。
这样可以避免normalization对feature map的影响,移除artifacts。
的形状是一个标量,也就是一个单个的数值,它是由一个全连接层从W空间的潜码映射得到的³。的作用是将风格向量的信息融合到卷积核中,从而实现风格迁移⁴。
“configuration E” 和“configuration F”
这篇关于图文详解:stylegan1 与stylegan2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!