字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图

2024-03-10 07:04

本文主要是介绍字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

TikTok 的母公司字节跳动推出了最新的文本到图像生成人工智能模型,名为SDXL-Lightning。顾名思义,这个新模型只需很轻量的推理步骤(1,4 或 8 步)即可实现极其快速且高质量的文本到图像生成功能。与原始 SDXL 模型相比,这是一个重大突破,原始 SDXL 模型需要超过 25 个步骤才能达到同等质量。

SDXL-LIGHTNING 简介

虽然 Diffusion 模型在生成任务中取得了出色的结果,但其迭代采样过程既缓慢又计算昂贵。对于实际应用,减少所需的步骤数至关重要。之前的工作尝试了更好的 ODE 求解器、直流和模型蒸馏,但质量在八个或以下的步骤中仍然低于标准。

SDXL 将潜在扩散引入文本到图像的生成,支持高分辨率 1024px 输出。然而,其多步采样进行了 50 多个推论。显然,需要更快的生成速度才能释放扩散模型的全部潜力。这就是 SDXL-Lightning 的用武之地。SDXL-Lightning 通过一步生成 1024 像素来突破界限。

渐进式对抗蒸馏法

SDXL-Lightning 模型同时利用渐进式和对抗性蒸馏。渐进式蒸馏教会学生网络预测密度流上更前方的位置,而对抗性损失则确保学生的预测与教师网络的预测相匹配。

此外,蒸馏过程从 128 步逐步降低到 32 步,再到最后的 1 步,经过多个阶段。在提取具有对抗性损失的模式覆盖率之后,放宽了要求,将质量优先于覆盖率,同时保留整体流程。

这种平衡的方法就是 SDXL-Lightning 能够出色地弥合困扰其他方法的质量保真度权衡的原因。 

SDXL-Lightning 中使用的模型是从 StabilityAI 的稳定扩散 XL 基础中提炼出来的。这确保了生成的图像保持高度的稳定性和连贯性。字节跳动提供了 1 步、2 步、4 步和 8 步蒸馏模型的检查点,每个检查点都有自己独特的生成质量。

  • sdxl_lightning_1step_x0.safetensors
  • sdxl_lightning_2step.safetensors
  • Sdxl_lightning_4step.safetensors
  • sdxl_lightning_8step.safetensors

性能评估

综合评估表明,SDXL-Lightning 为几步文本到图像生成设定了新的最先进技术。定性评估和 CLIP 评分指标均表明,与 LCM、SDXL-Turbo 和原始SDXL模型相比,SDXL-Lightning 可以生成质量更好的图像。

衡量质量和多样性的定量 Fréchet 起始距离 (FID) 分数与其他方法相当。然而,在 299 像素补丁上计算的 FID(评估高分辨率细节)要好得多,与次佳模型相比,得分低 2 倍以上。这验证了 SDXL-Lightning 在 1024 像素图像中生成了极其出色的细节。 

SDXL-LIGHTNING 的配置选项 

检查点可用于 1、2、4 和 8 个推理步骤,允许用户根据需要平衡速度与质量。1 步模型一次生成图像,但质量可能不一致,因此通常建议使用两步或更多步。 

支持两种架构选项——UNet 和 LoRA。 

1. UNET 检查点:2 步、4 步、8 步

UNet 模型使用标准的完整神经网络来调节扩散过程。它们提供最高的图像质量生成,但需要更多内存。BteDance 的 2 步、4 步和 8 步 UNet SDXL-Lightning 模型如下:

  • sdxl_lightning_2step_unet.safetensors
  • sdxl_lightning_4step_unet.safetensors
  • Sdxl_lightning_8step_unet.safetensors

2. LORA 检查点:2 步、4 步、8 步

这些模型还表现出处理不同纵横比的可靠能力,并展示了与现有 LoRA 模块的兼容性,以便在基本模型之间轻松转移。LoRA模型采用轻量级回归方法。图像质量略低于UNet。 

但 SDXL-Lightning 现已将 Loras 更新为 .safetensors 文件。这些更新的 .safetensors 文件提供了改进的稳定性和连贯性,从而产生更加真实和视觉上吸引人的图像。Loras 更新为 .safetensors 很有帮助,因为这些压缩文件可以节省存储空间。

  • sdxl_lightning_2step_lora.safetensors
  • sdxl_lightning_4step_lora.safetensors
  • Sdxl_lightning_8step_lora.safetensors

SDXL-LIGHTNING 与 COMFYUI 

该模型还可以与 ComfyUI 集成,以获得更人性化的体验。无论您选择 1 步、2 步、4 步、8 步 UNet 还是 2 步、4 步、8 步 UNet loras,ComfyUI 都提供了从文本生成图像的简化工作流程。以下是各个 ComfyUi 工作流程的下载链接:

  • ComfyUI 完整的一步工作流程
  • ComfyUI 完整的 UNet 工作流程
  • ComfyUI LoRA 工作流程

SDXL-LIGHTNING图像生成实例

以下实例是本地搭建的服务器运行SDXL-LIGHTNING模型生成,使用的是 sdxl_lightning_4step.safetensors

Prompt: An Asian firefighter with a rugged jawline rushes through the billowing smoke of an autumn blaze.

Prompt: A close-up of an Asian lady with sunglasses.

Prompt: The 90s, a beautiful woman with a radiant smile and long hair, dressed in summer attire.

Prompt: A majestic lion stands proudly on a rock, overlooking the vast African savannah.

Prompt: A monkey making latte art.

Prompt: In a fantastical scene, a creature with a human head and deer body emanates a green light.

Prompt: A delicate porcelain teacup sits on a saucer, its surface adorned with intricate blue patterns.

Prompt: A pickup truck going up a mountain switchback.

Prompt: A tanned woman, dressed in sportswear and sunglasses, climbing a peak with a group during the summer.

Prompt: A dolphin leaps through the waves, set against a backdrop of bright blues and teal hues.

Prompt: A boy jumping off a spaceship.

上手实操视频

本视频是在自己本地搭建的服务器上运行,GPU是NVIDIA RTX-4090。视频未作加速,可以看到,生成图片的速度还是非常快的。

字节跳动SDXL-Lightning文生图模型使用演示

结论

借助 SDXL-Lightning,字节跳动在文本到图像合成方面取得了重大进步。经过 LoRA 训练的模型进一步扩展了即插即用模块的可用性。然而,与其他生成模型一样,传播错误信息或不当内容也存在滥用风险。为了减轻这些担忧,负责任和道德的发展实践是必要的。但总的来说,像 SDXL-Lightning 这样的模型体现了人工智能在计算创造力方面的巨大潜力。其方法也为扩散模型蒸馏研究提供了新的方向。有关更多技术细节,请访问项目 arXiV 论文。

作者个人Blog文章地址:字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图 - HY's Blog

这篇关于字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/793435

相关文章

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

什么是 Linux Mint? 适合初学者体验的桌面操作系统

《什么是LinuxMint?适合初学者体验的桌面操作系统》今天带你全面了解LinuxMint,包括它的历史、功能、版本以及独特亮点,话不多说,马上开始吧... linux Mint 是一款基于 Ubuntu 和 Debian 的知名发行版,它的用户体验非常友好,深受广大 Linux 爱好者和日常用户的青睐,

.NET利用C#字节流动态操作Excel文件

《.NET利用C#字节流动态操作Excel文件》在.NET开发中,通过字节流动态操作Excel文件提供了一种高效且灵活的方式处理数据,本文将演示如何在.NET平台使用C#通过字节流创建,读取,编辑及保... 目录用C#创建并保存Excel工作簿为字节流用C#通过字节流直接读取Excel文件数据用C#通过字节

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

网络安全运维培训一般多少钱

在当今数字化时代,网络安全已成为企业和个人关注的焦点。而网络安全运维作为保障网络安全的重要环节,其专业人才的需求也日益增长。许多人都对网络安全运维培训感兴趣,那么,网络安全运维培训一般多少钱呢?   一、影响网络安全运维培训价格的因素   1. 培训内容的深度和广度   不同的网络安全运维培训课程涵盖的内容有所不同。一些基础的培训课程可能主要涉及网络安全基础知识、常见安全工具的使用等,价

C++入门(06)安装QT并快速测试体验一个简单的C++GUI项目

文章目录 1. 清华镜像源下载2. 安装3. 开始菜单上的 QT 工具4. 打开 Qt Creator5. 简单的 GUI C++ 项目5.1 打开 Qt Creator 并创建新项目5.2 设计界面5.3 添加按钮的点击事件5.4 编译并运行项目 6. 信号和槽(Signals and Slots) 这里用到了C++类与对象的很多概念 1. 清华镜像源下载 https://

JVM - 字节码文件详解

文章目录 目录 文章目录 1. 无关性基石 2. Class类文件结构 magic- 魔数 主副版本号 常量池 访问标志 类索引,父类索引与接口索引集合 字段 方法 属性 3. 类加载机制 类的生命周期 类加载过程 加载 连接 验证 准备 解析 初始化 4. 类加载器 类与类加载器 类加载器的分类 启动类加载器  扩展类加载器 应用程序类加

P11019 「LAOI-6」[太阳]] 请使用最新版手机 QQ 体验新功能

English statement. You must submit your code at the Chinese version of the statement. 题目描述 你的 QQ 收到了一条新消息!但是你很生气,因为你看不到别人在手机 QQ 上发送的超级表情。 消息形如一个字符串 S,包含且仅包含一个超级表情。具体地,我们将 S 的拼音采用驼峰命名法,可以化为如下形