一步成像:Hyper-SD在图像合成中的创新与应用

2024-05-09 09:12

本文主要是介绍一步成像:Hyper-SD在图像合成中的创新与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、摘要

         论文:https://arxiv.org/pdf/2404.13686

        代码:https://huggingface.co/ByteDance/Hyper-SD

        在生成人工智能领域,扩散模型(Diffusion Models, DMs)因其出色的图像生成质量而备受关注,但其多步骤推理过程的高计算成本一直是其广泛应用的瓶颈。本文介绍的Hyper-SD框架是来自字节的一篇工作,通过创新的轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD)技术,显著提升了图像合成的效率,同时保持了生成图像的高质量。 主要贡献包括:

  1. 轨迹分割一致性蒸馏(TSCD):一种新颖的蒸馏技术,通过在预定义的时间步段内逐步执行一致性蒸馏,有效保留了原始ODE(常微分方程)轨迹,同时减少了推理步骤。
  2. 人类反馈学习:结合人类对生成图像的美学偏好,通过反馈学习优化模型性能,尤其在低步骤推理情况下显著提升了图像质量。
  3. 统一的LoRA模型:提出了一个支持1到8步推理的统一LoRA模型,为不同需求的用户提供了灵活性,同时保证了全时推理的一致性。
  4. 性能提升:在少步骤推理中,Hyper-SD在多个评估指标上超越了现有技术,包括CLIP Score和Aes Score等,证明了其在图像合成任务中的领先地位。

        本博客对Hyper-SD的技术细节,包括其核心算法、实验结果做简单总结供快速阅读之用。

二、核心内容:

        这篇论文介绍了一个名为Hyper-SD的新型框架,旨在提高扩散模型(Diffusion Models, DMs)在图像合成任务中的效率和性能。以下是对论文内容的总结,包括主要贡献、主要创新、核心网络结构和核心算法细节:

1.)主要贡献:

  1. 加速(Accelerate):提出了轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD),这是一种更细粒度和高阶一致性蒸馏方法,用于原始基于分数的模型。
  2. 提升(Boost):通过人类反馈学习(Human Feedback Learning, ReFL)进一步提升模型在低步数推理条件下的性能。
  3. 统一(Unify):提供了一个统一的低秩适应(Low-Rank Adaptation, LoRA)模型,作为全时一致性模型,并支持所有NFE(Noise Free Expressions)的推理。
  4. 性能(Performance):Hyper-SD在1到8步推理中为SDXL和SD1.5实现了最先进的性能。

2.)主要创新:

  • 轨迹分割一致性蒸馏(TSCD):通过将时间步分割成多个段,并在每个段内执行一致性蒸馏,逐步减少段数以实现全时一致性。
  • 人类反馈学习:利用人类对美学的反馈和现有的视觉感知模型来优化加速模型,调整ODE(常微分方程)轨迹以更好地适应少步推理。
  • 分数蒸馏(Score Distillation):通过统一的LoRA技术,增强了一步生成性能,实现了理想的全时一致性模型。

3.)核心算法细节:

  1. TSCD:通过将时间步分为多个段,每个段内执行一致性蒸馏,然后逐步减少段数,最终实现全时一致性。
  2. 教师-学生模型:在蒸馏过程中,使用教师模型(ftea)和学生模型(fstu)来训练学生模型,以近似教师模型的流位置。
  3. 人类反馈学习:包括奖励模型训练和偏好微调两个阶段,使用人类偏好数据对奖励模型进行训练,然后利用该模型对去噪图像进行评分,以此来微调扩散模型。
  4. 一步生成增强:使用优化的分布匹配蒸馏(DMD)技术来提升一步生成的性能,结合均方误差(MSE)损失和人类反馈学习技术。

4.)实验和评估:

  • 使用了LAION和COYO数据集的子集进行训练。
  • 与现有的加速方案进行了定量和定性比较,证明了Hyper-SD在少步推理中的优势。
  • 进行了广泛的用户研究,以更准确地评估性能。

5.)讨论和局限性:

  • 论文讨论了未来的改进方向,包括保留CFG特性、定制人类反馈优化和探索扩散变换器架构(DIT)。

三、结论:

        Hyper-SD通过结合轨迹保持和轨迹重构的蒸馏技术,实现了在少步推理中的高性能图像生成,为生成AI社区的发展提供了推动力。论文还提供了一些量化的比较结果,展示了Hyper-SD在不同指标上相比于其他方法的优势。此外,论文开源了从1到8步推理的LoRA插件,以及一个专门的一步SDXL模型,以促进生成AIGC社区的发展。

这篇关于一步成像:Hyper-SD在图像合成中的创新与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/972987

相关文章

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

java中VO PO DTO POJO BO DO对象的应用场景及使用方式

《java中VOPODTOPOJOBODO对象的应用场景及使用方式》文章介绍了Java开发中常用的几种对象类型及其应用场景,包括VO、PO、DTO、POJO、BO和DO等,并通过示例说明了它... 目录Java中VO PO DTO POJO BO DO对象的应用VO (View Object) - 视图对象

Go信号处理如何优雅地关闭你的应用

《Go信号处理如何优雅地关闭你的应用》Go中的优雅关闭机制使得在应用程序接收到终止信号时,能够进行平滑的资源清理,通过使用context来管理goroutine的生命周期,结合signal... 目录1. 什么是信号处理?2. 如何优雅地关闭 Go 应用?3. 代码实现3.1 基本的信号捕获和优雅关闭3.2

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6