InstantX团队新作!基于端到端训练的风格转换模型CSGO

2024-09-05 02:12

本文主要是介绍InstantX团队新作!基于端到端训练的风格转换模型CSGO,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

由InstantX团队、南京理工大学、北京航空航天大学以及北京大学联合提出了一种基于端到端训练的风格转换模型 CSGO,它采用独立的特征注入明确地解耦内容和风格特征。统一的 CSGO 实现了图像驱动的风格转换、文本驱动的风格化合成和文本编辑驱动的风格化合成。大量实验证明了该方法在增强图像生成中的风格控制能力方面的有效性。

CSGO 实现了高质量的(1)图像(草图和自然)驱动的风格转换、(2)文本驱动的风格化合成和(3)文本编辑驱动的风格化合成。

相关链接

项目主页-https://csgo-gen.github.io/

代码链接-https://github.com/instantX-research/CSGO

论文链接-https://arxiv.org/pdf/2408.16766

论文阅读

CSGO:文本到图像生成中的内容样式组合

摘要

扩散模型在受控图像生成中表现出卓越的能力,这进一步激发了人们对图像风格转换的兴趣。由于特定数据的稀缺,现有的工作主要集中于训练基于自由的方法(例如,图像反转)。

在本研究中,我们提出了一种用于内容-风格-风格化图像三元组的数据构建管道,可生成并自动清理风格化的数据三元组。基于此管道,我们构建了一个数据集 IMAGStyle,这是第一个包含 210k 个图像三元组的大规模风格转换数据集,可供社区探索和研究。

借助 IMAGStyle,我们提出了基于端到端训练的风格转换模型 CSGO,它采用独立的特征注入明确地解耦内容和风格特征。统一的 CSGO 实现了图像驱动的风格转换、文本驱动的风格化合成和文本编辑驱动的风格化合成。大量实验证明了我们的方法在增强图像生成中的风格控制能力方面的有效性。

方法

给定任何内容图像 C 和风格图像 S,CSGO 旨在通过将一个图像的内容与另一个图像的风格相结合来生成可信的目标图像,确保目标图像在采用所需风格的同时保持原始内容的语义。下图概述了我们的方法。它由两个关键组件组成:

  • 用于提取内容信息的内容控制,通过 Controlnet 和解耦的交叉注意模块注入基础模型;

  • 用于提取风格信息的风格控制,分别使用解耦的交叉注意模块注入 Controlnet 和基础模型。

我们与之前的研究有以下不同之处:

  1. CSGO 是一个基于端到端训练的模型,推理时无需微调。

  2. 我们不训练 UNet,因此可以保留原始文本到图像模型的生成能力。

  3. 我们的方法统一了图像驱动的风格转换、文本驱动的风格合成和文本编辑驱动的风格合成。

实验

文本到图像生成中的内容样式组合

内容和风格图像之间的循环翻译

文本到图像生成中的风格转换

文本驱动的图像编辑

结论

我们首先提出了一个用于构建内容-风格-风格化图像三元组的流水线。基于此流水线,我们构建了第一个大规模风格转换数据集 IMAGStyle,其中包含 210K 个图像三元组,涵盖了广泛的风格场景。为了验证 IMAGStyle 对风格转换的影响,我们提出了 CSGO,这是一个简单但高效的端到端训练风格转换框架,并且我们验证了所提出的 CSGO 可以在统一的框架中同时执行图像风格转换、文本驱动的风格合成和文本编辑驱动的风格合成任务。大量实验验证了 IMAGStyle 和 CSGO 对风格转换的有益效果。我们希望我们的工作能够激励研究界进一步探索风格化研究。

未来的工作。 虽然提出的数据集和框架实现了非常先进的性能,但仍有改进的空间。由于时间和计算资源的限制,我们仅构建了 210K 数据三元组。我们相信,通过扩大数据集的大小,CSGO 的风格迁移质量将会更好。同时,提出的 CSGO 框架是一个基础版本,仅验证了生成风格化数据集对风格迁移的有益影响。我们相信,通过优化风格和内容特征提取和融合方法,可以进一步提高风格迁移的质量。

这篇关于InstantX团队新作!基于端到端训练的风格转换模型CSGO的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1137675

相关文章

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

Python实现AVIF图片与其他图片格式间的批量转换

《Python实现AVIF图片与其他图片格式间的批量转换》这篇文章主要为大家详细介绍了如何使用Pillow库实现AVIF与其他格式的相互转换,即将AVIF转换为常见的格式,比如JPG或PNG,需要的小... 目录环境配置1.将单个 AVIF 图片转换为 JPG 和 PNG2.批量转换目录下所有 AVIF 图

详解如何通过Python批量转换图片为PDF

《详解如何通过Python批量转换图片为PDF》:本文主要介绍如何基于Python+Tkinter开发的图片批量转PDF工具,可以支持批量添加图片,拖拽等操作,感兴趣的小伙伴可以参考一下... 目录1. 概述2. 功能亮点2.1 主要功能2.2 界面设计3. 使用指南3.1 运行环境3.2 使用步骤4. 核

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre