GAN笔记_李弘毅教程(七)Info GAN,VAE-GAN,BiGAN

2023-12-23 21:32

本文主要是介绍GAN笔记_李弘毅教程(七)Info GAN,VAE-GAN,BiGAN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • InfoGAN
  • VAE-GAN
  • BiGAN
  • Triple GAN
  • Domain-adversarial training
  • Original Seq2seq Auto-encoder

Feature Extraction

InfoGAN

手写数字生成,input改变一个维度,output看不出什么变化。
input的变化对output的影响不明确

怎么能看出这种变化的根源?
用InfoGAN
InfoGAN是什么?
输入z,前x维为c,后xx维为z’,用classifier根据G生成的x预测输入的c是什么。
根据输入的vector编码成image,然后image再被译码成vector,这个过程是和一般的"Autor-encoder"相反的,所以为Autor-encoder”
如果G想要让classifier成功预测出c,那么就会很明显地把c放在明显位置,导致生成图片不理想,这时候需要D发现这种错误。
D和classifier参数共享,它们输入的都是图片,输出的分别是scalar和c,所以它们在最后一层不一样。

G要学到c对X有明确影响,所以classifier才能预测出c。c代表了x的某些特征。z’对x的影响是随机的。
是先被归为c,用InfoGAN训练,所以这些维度可以对X有明确影响。

InfoGAN的实验结果
(a)改变c的第一维,决定输出是什么数字
(b)普通GAN的结果
(c)改变c的第二维,决定输出数字的角度
(c)改变c的第三维,决定输出数字的粗细

VAE-GAN

用GAN强化VAE,也可以看作是VAE强化GAN。
VAE没有inout和output的loss,所以生成图像会很模糊,加上D后,会让image更加realistic。
GAN中的G从没看过真正的图片长什么样,需要花大量时间去调参数,才能让G学会产生真正的image,加上Encoder后,会稳

Encoder:
让x和x经过Encoder和Decoder生成的 x i {x^i} xi~ 越接近越好,
同时要让z的分布和 x i {x^i} xi通过Encoder产生的 z i {z^i} zi~ 分布差距越小越好
Decoder(G):
让x和x经过Encoder和Decoder生成的 x i {x^i} xi~ 越接近越好
让Encoder产生的图片(无论是) x i {x^i} xi~还是 x i {x^i} xi能骗过D,${x^i}$是P(z)另外取出的Z生成的图像
D:
对真实图片分数提高,对Decoder(G)产生的两种图片分数降低。

注意:第10个点出现错误,En改成De。

还有一种D,可以辨别出输入的图片是real的,还是generated,还是reconstructed:

BiGAN

Encoder和Decoder的输入输出无关,D同时输入x和z,判断它们来自Encoder还是Decoder

D给Encoder高分,Decoder低分,(相反也可以)。
Encoder要让D给低分,Decoder要让D给高分,具体算法如下:

D做的就是衡量P与Q的差异。GAN的目的是让P和Q越近越好。

如果单用Encoder和Decoder,用输入和输出的方法,貌似也可以达到这个效果,如下图的两个模型,但为什么要引入GAN呢?
这两个模型的optimal solution是一样的,但是它们的error service是不一样的,得到的结果是一样的。
实际上是不可能达到输入和输出完全一样的,所以不可能收敛到optimal solution,在没有收敛到optimal solution的情况下,这两种模型训练出来的结果就会不一样。(模糊)
这两种模型输入的是一张图片,输出的会是同一张图片,只是会变模糊。
但BiGAN是输入一张图片,输出的是另一张同类型的图片,但会很清晰。BiGAN能抓住语义信息。

Triple GAN

由三部分组成,分别是G,D,Classifier。 Triple GAN本身是一个conditional GAN

Domain-adversarial training

当training data和testing data类型不同时,用G分别输入两个数据集的图片,输出两个feature,让这两个feature有相同的distribution。那么就会让两个不同类型的数据集match。

下图中的feature extractor就是G,Domain classfier就是D,Label predictor是classifier看输出的feature属于哪个数字(标签)。理想状态下G不仅要欺骗D,同时还要满足类别标签。实际上不一定一起,是迭代更新,D在训练前是一个负号。一起train会不是很稳;先train D,再train classfier,最后train G,会比较稳。

Original Seq2seq Auto-encoder

中间的latent space包括多种information,

但有时候往往只需要其中一种information,比如说声纹识别,如何单独取出一种information,用来训练?
当是同一个人的语音时,抽出来的特征尽量相同。

当是不同人的语音时,抽出来的特征尽量不同。

但声音信号有时候也藏在发音信号中,这时候就用到Domain-adversarial training
另外train一个classifier,输入两个vector,让classifier判断这是同一个人说的还是不同人说的,同一个人分数提高,不同人分数降低。
这时候就组成了一个GAN,让Encoder欺骗classifier。 x j {x^j} xj是生成的语音。就可以过滤掉speaker信息

phonetic 表示是不同词汇的发音
speaker表示同一个人说的
实验结果:

这篇关于GAN笔记_李弘毅教程(七)Info GAN,VAE-GAN,BiGAN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/529532

相关文章

电脑没有仿宋GB2312字体怎么办? 仿宋GB2312字体下载安装及调出来的教程

《电脑没有仿宋GB2312字体怎么办?仿宋GB2312字体下载安装及调出来的教程》仿宋字体gb2312作为一种经典且常用的字体,广泛应用于各种场合,如何在计算机中调出仿宋字体gb2312?本文将为您... 仿宋_GB2312是公文标准字体之一,仿China编程宋是字体名称,GB2312是字php符编码标准名称(简

VScode连接远程Linux服务器环境配置图文教程

《VScode连接远程Linux服务器环境配置图文教程》:本文主要介绍如何安装和配置VSCode,包括安装步骤、环境配置(如汉化包、远程SSH连接)、语言包安装(如C/C++插件)等,文中给出了详... 目录一、安装vscode二、环境配置1.中文汉化包2.安装remote-ssh,用于远程连接2.1安装2

vscode保存代码时自动eslint格式化图文教程

《vscode保存代码时自动eslint格式化图文教程》:本文主要介绍vscode保存代码时自动eslint格式化的相关资料,包括打开设置文件并复制特定内容,文中通过代码介绍的非常详细,需要的朋友... 目录1、点击设置2、选择远程--->点击右上角打开设置3、会弹出settings.json文件,将以下内

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

《linux报错INFO:taskxxxxxx:634blockedformorethan120seconds.三种解决方式》文章描述了一个Linux最小系统运行时出现的“hung_ta... 目录1.问题描述2.解决办法2.1 缩小文件系统缓存大小2.2 修改系统IO调度策略2.3 取消120秒时间限制3

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

龙蜥操作系统Anolis OS-23.x安装配置图解教程(保姆级)

《龙蜥操作系统AnolisOS-23.x安装配置图解教程(保姆级)》:本文主要介绍了安装和配置AnolisOS23.2系统,包括分区、软件选择、设置root密码、网络配置、主机名设置和禁用SELinux的步骤,详细内容请阅读本文,希望能对你有所帮助... ‌AnolisOS‌是由阿里云推出的开源操作系统,旨

PyTorch使用教程之Tensor包详解

《PyTorch使用教程之Tensor包详解》这篇文章介绍了PyTorch中的张量(Tensor)数据结构,包括张量的数据类型、初始化、常用操作、属性等,张量是PyTorch框架中的核心数据结构,支持... 目录1、张量Tensor2、数据类型3、初始化(构造张量)4、常用操作5、常用属性5.1 存储(st

Java操作PDF文件实现签订电子合同详细教程

《Java操作PDF文件实现签订电子合同详细教程》:本文主要介绍如何在PDF中加入电子签章与电子签名的过程,包括编写Word文件、生成PDF、为PDF格式做表单、为表单赋值、生成文档以及上传到OB... 目录前言:先看效果:1.编写word文件1.2然后生成PDF格式进行保存1.3我这里是将文件保存到本地后

windows系统下shutdown重启关机命令超详细教程

《windows系统下shutdown重启关机命令超详细教程》shutdown命令是一个强大的工具,允许你通过命令行快速完成关机、重启或注销操作,本文将为你详细解析shutdown命令的使用方法,并提... 目录一、shutdown 命令简介二、shutdown 命令的基本用法三、远程关机与重启四、实际应用