StarGAN 使用指南:一个模型实现多个域的迁移

2023-12-05 17:44

本文主要是介绍StarGAN 使用指南:一个模型实现多个域的迁移,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

StarGAN 使用指南

    • 网络结构
    • 多数据集训练
    • 使用指南
    • StarGAN v2

 


论文地址:https://arxiv.org/pdf/1711.09020.pdf

我们有猫的图片集、狗的图片集和兔子的图片集。

目标是让猫的图片看起来像狗的图片,狗的图片看起来像兔子的图片,兔子的图片看起来像猫的图片。

这是一个多领域迁移的问题。

如果使用传统 GAN 不能解决多领域迁移的问题,只能两个领域的互相转化,只能用多个传统 GAN。

那有没有什么方法,一个模型就能实现多个域的迁移呢?StarGAN。

网络结构

传统 GAN 和 StarGAN,在域迁移上差异:

传统的域迁移 需要在不同的两个域之间相互进行特征提取,这就导致在有 k 个域的情况下需要 k*(k-1) 个生成器。

比如上文的 3 个数据集,需要 3*2 个生成器来完成所有可能的域之间的转换。

  • 猫到狗的生成器:用于将猫的图片转换为狗的图片
  • 猫到兔子的生成器:用于将猫的图片转换为兔子的图片
  • 狗到猫的生成器:用于将狗的图片转换为猫的图片
  • 狗到兔子的生成器:用于将狗的图片转换为兔子的图片
  • 兔子到猫的生成器:用于将兔子的图片转换为猫的图片
  • 兔子到狗的生成器:用于将兔子的图片转换为狗的图片

而 starGAN 则解决了这个问题,自始至终只需要一个生成器。

核心思想:通过一个域标签向量来控制多个域的转换。

看上图,生成器(蓝色区域):

  • 左一:把输入图像(Input image)、目标域(Target domain)拼接,输入生成器(G),得到假的图片(Fake image)

  • 左二:再把假图(Fake image)、原来域(Original domain)拼接,输入生成器(G),得到重建图像(Reconstructed image)

  • 循环箭头:对比重建图像和原图之间,要最小化误差,循环这个过程(变到目标域,再变回源域)

判别器(红色区域):

  • 把假图(Fake image)、真实图像(Real image)分别输入判别器

  • 判别器不仅要判断真假,还要判断来自哪个域

多数据集训练

假设我们要训练一个模型来识别动物的图片,我们有三个数据集:猫的图片集、狗的图片集和兔子的图片集。

如果我们只使用单个数据集来训练模型,那么模型可能会对其他动物的图片识别能力较弱。

多数据集训练:如果我们将三个数据集合并成一个大的数据集,并在训练过程中同时使用这三个数据集,模型就可以获得更多的样本和不同种类的动物图片,从而提高识别能力。

判别器部分:

  • CelebA 是人脸数据集(黄色)

  • RaFD 是人脸表情数据集(绿色)

生成器部分:

  • 蓝色框 Mask vector 是掩码向量,只选择 CelebA 训练或者 RaFD 训练

  • 黄色框 CelebA 是人脸数据集

  • 绿色框 RaFD 是人脸表情数据集

使用指南

项目代码:https://github.com/yunjey/stargan.git

StarGAN v2

这篇关于StarGAN 使用指南:一个模型实现多个域的迁移的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/458510

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验