风格迁移2-04：MUNIT(多模态无监督)-白话给你讲论文-翻译无死角（2）

本文主要是介绍风格迁移2-04：MUNIT(多模态无监督)-白话给你讲论文-翻译无死角（2），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

以下链接是个人关于 MUNIT(多模态无监督)-图片风格转换，的所有见解，如有错误欢迎大家指出，我会第一时间纠正。有兴趣的朋友可以加微信 17575010159 相互讨论技术。若是帮助到了你什么，一定要记得点赞！因为这是对我最大的鼓励。 $\color{blue}{文末附带}$ $\color{blue}{公众号 -}$ $\color{blue}{ 海量资源}。$

风格迁移2-00：MUNIT(多模态无监督)-目录-史上最新无死角讲解
我们接着上篇博客，把剩下的内容翻译完成。

5 Experiments

5.1 Implementation Details

Content encoder： 我们的 Content 编码器由几个下采样卷积和几个残差模块组成，所有的卷积层都使用了Instance Normalization。

Style encoder： Style 编码器包含了几个下采样卷积层，和一个 global average pooling 以及一个全链接层，再 Style 编码器中，我们没有使用Instance Normalization（IN），因为IN删除了代表重要Style 信息的原始特征均值和方差

Decoder： 我的解码器是根据输入的 Content code 与 Style code 进行图片重构，他首先通过一组残差模块处理content code，最后通过上采样和几个卷积生成图片。受到别的论文启发（再normalization 的层，使用 affine transformation parameters)，我们采用了Adaptive Instance Normalization(AdaIN), 这些些参数由一个来自 style code 的multilayer perceptron (MLP) 生成：
$β)=γ(\frac{z-µ(z)}{σ(z)}) +β$ 这里的 $z$ 是卷积之前的激活量， $µ$ 和 $σ$ 是平均值和标准偏差。 $γ$ ， $β$ 是通过MLP生成的参数，注意， affine parameters 是由一个学习网络产生的，而不是由一个预先训练的网络的统计数据计算出来的。

Discriminator： 鉴别器我们使用了 LSGAN ，借鉴于Wang，我们使用多尺寸进行鉴别，指导生成器生成真实的细节和正确的全局结构。

Domain-invariant perceptual loss： 域不变感知 loss，一般都是计算输出域和目标域，通过VGG提取的特征之间的空间距离。在配对的条件GAN中，效果是非常好的。然而，在无监督的情况下，我们在目标域中没有参考图像。我们提出了一个改进版本的感知损失，它更具有领域不变性。因此，我们可以使用输入图下作为参考，计算感知 loss。具体来说，为了移除原图特征的均值和方差，在计算距离之前，我们执行实例正常化（不带 affine transformations)。在附录C中，我们定量地展示了实例规范化确实可以使VGG特性具有更强的域不变性。我们在高分辨率(≥512×512)数据集上发现了域不变感知loss，加速了训练，并将其应用于这些数据集。

5.2 Evaluation Metrics

Human Preference： 使用了不同的办法，去评估生成图像的真实性。我们在Amazon Mechanical Turk (AMT)上进行人类感知研究。类似于 Wang 的做法。给工人一个输入图像和两个来自不同方法的翻译输出。然后给他们无限的时间来选择哪个翻译输出看起来更准确。对于每个比较，我们随机产生500个问题，每个问题由5个不同的工作人员回答。

LPIPS Distance： 为了评估翻译图像的多样性，我们计算了随机生成张图像的 LPIPS 距离，LPIPS距离由图像深度特征间的L2加权给出，他已经被证明了和人类的感知比较类似。我们使用100个输入图像，每个输入19个输出对，总共有1900对，我们使用imagenet预处理的AlexNet[78]作为深度特征提取器。

(Conditional) Inception Score： 这个Inception Score（IS）是比较流行的图片生成评估方式，我们提出了一个修改之后的版本，叫做Conditional Inception Score（CIS），他更加合适多模态的图像翻译。当我们知道一个域中有多少种模态，并且知道其中每张图片属于那个模态，可以去训练一个分类网络 $p(y_2|x_1)$ ，去预测 $x_1$ 其所属于的类别 $y_2$ 。条件是一个单一的输入图像 $x 1$ ,转化出来的样本 $x_{1→2}$ ，其属于的类别，应该发生改变。