风格迁移2-04:MUNIT(多模态无监督)-白话给你讲论文-翻译无死角(2)

2023-10-28 01:30

本文主要是介绍风格迁移2-04:MUNIT(多模态无监督)-白话给你讲论文-翻译无死角(2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

以下链接是个人关于 MUNIT(多模态无监督)-图片风格转换,的所有见解,如有错误欢迎大家指出,我会第一时间纠正。有兴趣的朋友可以加微信 17575010159 相互讨论技术。若是帮助到了你什么,一定要记得点赞!因为这是对我最大的鼓励。 文末附带 \color{blue}{文末附带} 文末附带 公众号 − \color{blue}{公众号 -} 公众号 海量资源。 \color{blue}{ 海量资源}。 海量资源

风格迁移2-00:MUNIT(多模态无监督)-目录-史上最新无死角讲解
我们接着上篇博客,把剩下的内容翻译完成。

5 Experiments

5.1 Implementation Details

Content encoder: 我们的 Content 编码器由几个下采样卷积和几个残差模块组成,所有的卷积层都使用了Instance Normalization。

Style encoder: Style 编码器包含了几个下采样卷积层,和一个 global average pooling 以及一个全链接层,再 Style 编码器中,我们没有使用Instance Normalization(IN),因为IN删除了代表重要Style 信息的原始特征均值和方差

Decoder: 我的解码器是根据输入的 Content code 与 Style code 进行图片重构,他首先通过一组残差模块处理content code,最后通过上采样和几个卷积生成图片。受到别的论文启发(再normalization 的层,使用 affine transformation parameters),我们采用了Adaptive Instance Normalization(AdaIN), 这些些参数由一个 来自 style code 的multilayer perceptron (MLP) 生成:
A d a I N ( z , γ , β ) = γ ( z − µ ( z ) σ ( z ) ) + β AdaIN(z, γ, β)=γ(\frac{z-µ(z)}{σ(z)}) +β AdaIN(z,γ,β)=γ(σ(z)zµ(z))+β这里的 z z z 是卷积之前的激活量, µ µ µ σ σ σ 是平均值和标准偏差。 γ γ γ β β β是通过MLP生成的参数,注意, affine parameters 是由一个学习网络产生的,而不是由一个预先训练的网络的统计数据计算出来的。

Discriminator: 鉴别器我们使用了 LSGAN ,借鉴于Wang,我们使用多尺寸进行鉴别,指导生成器生成真实的细节和正确的全局结构。

Domain-invariant perceptual loss: 域不变感知 loss,一般都是计算输出域和目标域,通过VGG提取的特征之间的空间距离。在配对的条件GAN中,效果是非常好的。然而,在无监督的情况下,我们在目标域中没有参考图像。我们提出了一个改进版本的感知损失,它更具有领域不变性。因此,我们可以使用输入图下作为参考,计算感知 loss。具体来说,为了移除原图特征的均值和方差,在计算距离之前,我们执行实例正常化(不带 affine transformations)。在附录C中,我们定量地展示了实例规范化确实可以使VGG特性具有更强的域不变性。我们在高分辨率(≥512×512)数据集上发现了域不变感知loss,加速了训练,并将其应用于这些数据集。

5.2 Evaluation Metrics

Human Preference: 使用了不同的办法,去评估生成图像的真实性。我们在Amazon Mechanical Turk (AMT)上进行人类感知研究。类似于 Wang 的做法。 给工人一个输入图像和两个来自不同方法的翻译输出。然后给他们无限的时间来选择哪个翻译输出看起来更准确。对于每个比较,我们随机产生500个问题,每个问题由5个不同的工作人员回答。

LPIPS Distance: 为了评估翻译图像的多样性,我们计算了随机生成张图像的 LPIPS 距离,LPIPS距离由图像深度特征间的L2加权给出,他已经被证明了和人类的感知比较类似。我们使用100个输入图像,每个输入19个输出对,总共有1900对,我们使用imagenet预处理的AlexNet[78]作为深度特征提取器。

(Conditional) Inception Score: 这个Inception Score(IS)是比较流行的图片生成评估方式,我们提出了一个修改之后的版本,叫做Conditional Inception Score(CIS),他更加合适多模态的图像翻译。当我们知道一个域中有多少种模态,并且知道其中每张图片属于那个模态,可以去训练一个分类网络 p ( y 2 ∣ x 1 ) p(y_2|x_1) p(y2x1),去预测 x 1 x_1 x1 其所属于的类别 y 2 y_2 y2。条件是一个单一的输入图像 x 1 x1 x1,转化出来的样本 x 1 → 2 x_{1→2} x12,其属于的类别,应该发生改变。

5.3 Baselines

UNIT : UNIT 包含了一个 VAE-GANs 和一个共享 latent space,翻译的随机性来自于高斯编码器,也来自于VAEs中的dropout层。

CycleGAN CycleGAN由两个带有adversarial loss的残差翻译网络和cycle reconstruction loss构成,们在培训和测试中都使用了Dropout来鼓励多样。

CycleGAN* 带有噪声。我们去测试了CycleGAN是否能够生成多样性的图片。在两个翻译网络中我们添加了噪声,我们使用带有噪声的 图片单作 U-net 的输入。我们发现,网络会把这些噪声忽略掉

BicycleGAN 我们所知道的唯一能够生成连续和多模态输出分布的图像-图像转换模型是双环模型,但是,它需要成对的训练数据。当数据集包含对信息时,我们将我们的模型与双循环比较

5.4 Datasets

数据集我就不介绍了,大家自己看看即可
下面是在各个数据集评估的结果,我复制以下:
在这里插入图片描述
在这里插入图片描述

6 Conclusions(结论)

一些吹逼的话,网络多好,多好。做出了什么贡献这些东西,无关紧要。

在这里插入图片描述

这篇关于风格迁移2-04:MUNIT(多模态无监督)-白话给你讲论文-翻译无死角(2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/289777

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

取得 Git 仓库 —— Git 学习笔记 04

取得 Git 仓库 —— Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区、索引、本地版本库之间的交互;二是本地版本库和远程版本库之间的交互。第一块是基础,第二块是难点。 下面,我们就围绕着第一部分内容来学习,先不考虑远程仓库,只考虑本地仓库。 怎样取得项目的 Git 仓库? 有两种取得 Git 项目仓库的方法。第一种是在本地创建一个新的仓库,第二种是把其他地方的某个

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

CentOs7上Mysql快速迁移脚本

因公司业务需要,对原来在/usr/local/mysql/data目录下的数据迁移到/data/local/mysql/mysqlData。 原因是系统盘太小,只有20G,几下就快满了。 参考过几篇文章,基于大神们的思路,我封装成了.sh脚本。 步骤如下: 1) 先修改好/etc/my.cnf,        ##[mysqld]       ##datadir=/data/loc

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

Linux Centos 迁移Mysql 数据位置

转自:http://www.tuicool.com/articles/zmqIn2 由于业务量增加导致安装在系统盘(20G)磁盘空间被占满了, 现在进行数据库的迁移. Mysql 是通过 yum 安装的. Centos6.5Mysql5.1 yum 安装的 mysql 服务 查看 mysql 的安装路径 执行查询 SQL show variables like

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin