字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图

2024-03-10 07:04

本文主要是介绍字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

TikTok 的母公司字节跳动推出了最新的文本到图像生成人工智能模型,名为SDXL-Lightning。顾名思义,这个新模型只需很轻量的推理步骤(1,4 或 8 步)即可实现极其快速且高质量的文本到图像生成功能。与原始 SDXL 模型相比,这是一个重大突破,原始 SDXL 模型需要超过 25 个步骤才能达到同等质量。

SDXL-LIGHTNING 简介

虽然 Diffusion 模型在生成任务中取得了出色的结果,但其迭代采样过程既缓慢又计算昂贵。对于实际应用,减少所需的步骤数至关重要。之前的工作尝试了更好的 ODE 求解器、直流和模型蒸馏,但质量在八个或以下的步骤中仍然低于标准。

SDXL 将潜在扩散引入文本到图像的生成,支持高分辨率 1024px 输出。然而,其多步采样进行了 50 多个推论。显然,需要更快的生成速度才能释放扩散模型的全部潜力。这就是 SDXL-Lightning 的用武之地。SDXL-Lightning 通过一步生成 1024 像素来突破界限。

渐进式对抗蒸馏法

SDXL-Lightning 模型同时利用渐进式和对抗性蒸馏。渐进式蒸馏教会学生网络预测密度流上更前方的位置,而对抗性损失则确保学生的预测与教师网络的预测相匹配。

此外,蒸馏过程从 128 步逐步降低到 32 步,再到最后的 1 步,经过多个阶段。在提取具有对抗性损失的模式覆盖率之后,放宽了要求,将质量优先于覆盖率,同时保留整体流程。

这种平衡的方法就是 SDXL-Lightning 能够出色地弥合困扰其他方法的质量保真度权衡的原因。 

SDXL-Lightning 中使用的模型是从 StabilityAI 的稳定扩散 XL 基础中提炼出来的。这确保了生成的图像保持高度的稳定性和连贯性。字节跳动提供了 1 步、2 步、4 步和 8 步蒸馏模型的检查点,每个检查点都有自己独特的生成质量。

  • sdxl_lightning_1step_x0.safetensors
  • sdxl_lightning_2step.safetensors
  • Sdxl_lightning_4step.safetensors
  • sdxl_lightning_8step.safetensors

性能评估

综合评估表明,SDXL-Lightning 为几步文本到图像生成设定了新的最先进技术。定性评估和 CLIP 评分指标均表明,与 LCM、SDXL-Turbo 和原始SDXL模型相比,SDXL-Lightning 可以生成质量更好的图像。

衡量质量和多样性的定量 Fréchet 起始距离 (FID) 分数与其他方法相当。然而,在 299 像素补丁上计算的 FID(评估高分辨率细节)要好得多,与次佳模型相比,得分低 2 倍以上。这验证了 SDXL-Lightning 在 1024 像素图像中生成了极其出色的细节。 

SDXL-LIGHTNING 的配置选项 

检查点可用于 1、2、4 和 8 个推理步骤,允许用户根据需要平衡速度与质量。1 步模型一次生成图像,但质量可能不一致,因此通常建议使用两步或更多步。 

支持两种架构选项——UNet 和 LoRA。 

1. UNET 检查点:2 步、4 步、8 步

UNet 模型使用标准的完整神经网络来调节扩散过程。它们提供最高的图像质量生成,但需要更多内存。BteDance 的 2 步、4 步和 8 步 UNet SDXL-Lightning 模型如下:

  • sdxl_lightning_2step_unet.safetensors
  • sdxl_lightning_4step_unet.safetensors
  • Sdxl_lightning_8step_unet.safetensors

2. LORA 检查点:2 步、4 步、8 步

这些模型还表现出处理不同纵横比的可靠能力,并展示了与现有 LoRA 模块的兼容性,以便在基本模型之间轻松转移。LoRA模型采用轻量级回归方法。图像质量略低于UNet。 

但 SDXL-Lightning 现已将 Loras 更新为 .safetensors 文件。这些更新的 .safetensors 文件提供了改进的稳定性和连贯性,从而产生更加真实和视觉上吸引人的图像。Loras 更新为 .safetensors 很有帮助,因为这些压缩文件可以节省存储空间。

  • sdxl_lightning_2step_lora.safetensors
  • sdxl_lightning_4step_lora.safetensors
  • Sdxl_lightning_8step_lora.safetensors

SDXL-LIGHTNING 与 COMFYUI 

该模型还可以与 ComfyUI 集成,以获得更人性化的体验。无论您选择 1 步、2 步、4 步、8 步 UNet 还是 2 步、4 步、8 步 UNet loras,ComfyUI 都提供了从文本生成图像的简化工作流程。以下是各个 ComfyUi 工作流程的下载链接:

  • ComfyUI 完整的一步工作流程
  • ComfyUI 完整的 UNet 工作流程
  • ComfyUI LoRA 工作流程

SDXL-LIGHTNING图像生成实例

以下实例是本地搭建的服务器运行SDXL-LIGHTNING模型生成,使用的是 sdxl_lightning_4step.safetensors

Prompt: An Asian firefighter with a rugged jawline rushes through the billowing smoke of an autumn blaze.

Prompt: A close-up of an Asian lady with sunglasses.

Prompt: The 90s, a beautiful woman with a radiant smile and long hair, dressed in summer attire.

Prompt: A majestic lion stands proudly on a rock, overlooking the vast African savannah.

Prompt: A monkey making latte art.

Prompt: In a fantastical scene, a creature with a human head and deer body emanates a green light.

Prompt: A delicate porcelain teacup sits on a saucer, its surface adorned with intricate blue patterns.

Prompt: A pickup truck going up a mountain switchback.

Prompt: A tanned woman, dressed in sportswear and sunglasses, climbing a peak with a group during the summer.

Prompt: A dolphin leaps through the waves, set against a backdrop of bright blues and teal hues.

Prompt: A boy jumping off a spaceship.

上手实操视频

本视频是在自己本地搭建的服务器上运行,GPU是NVIDIA RTX-4090。视频未作加速,可以看到,生成图片的速度还是非常快的。

字节跳动SDXL-Lightning文生图模型使用演示

结论

借助 SDXL-Lightning,字节跳动在文本到图像合成方面取得了重大进步。经过 LoRA 训练的模型进一步扩展了即插即用模块的可用性。然而,与其他生成模型一样,传播错误信息或不当内容也存在滥用风险。为了减轻这些担忧,负责任和道德的发展实践是必要的。但总的来说,像 SDXL-Lightning 这样的模型体现了人工智能在计算创造力方面的巨大潜力。其方法也为扩散模型蒸馏研究提供了新的方向。有关更多技术细节,请访问项目 arXiV 论文。

作者个人Blog文章地址:字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图 - HY's Blog

这篇关于字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/793435

相关文章

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

Java——IO流(一)-(5/8):IO流概述、字节流-FileInputStream 每次读取一个字节

IO流概述 介绍 输入输出流,用于读写数据。 I指Input,称为输入流:负责把数据读到内存中去。 O指Output,称为输出流:负责写数据出去。 IO流的应用场景 文件内容的读写永久保存应用数据复制粘贴对话通信等等 怎么学IO流 理清楚IO六点分类和体系循序渐进、深入学习每个IO流的作用和用法 IO流的分类 IO流总体来看就有四大类: 字节输入流:以内存

Java代理-动态字节码生成代理的5种方式

上篇讲到了代理模式出现的原因,实现方式以及跟其他相似设计模式的区别。传送门@_@ http://blog.csdn.net/wonking666/article/details/79497547 1.静态代理的不足 设计模式里面的代理模式,代理类是需要手动去写的。但是手写代理的问题颇多 1.如果不同类型的目标对象需要执行同样一套代理的逻辑,比如说在方法调用前后打印参数和结果,那么仍然需要为每

成章数据库安装体验

对标Redis的国产数据库 一位来自国产数据库的朋友想请我试用一下他们的产品。并且直言早期问题比较多,还请多多包涵。一般对于这种比较客观和友好的我都愿意试试。对于怼天怼地吊打谁的我个人就不尝试了。 他们中文名字叫“成章数据库“我就尝试从一个不了解产品的人的角度去安装尝试一下。我也和他们反馈了说这个怎么一个汉字都没有啊。(同样的话我以前对PingCAP的CTO黄东旭老师说过,后来TiDB的就都有

Linux平台与Windows平台字节对齐(一)

记录时间:2014-10-20 20:31 今天白天在整理 winndows平台 + Arm平台的网络数据包。但期间由于经验不足,不了解两平台CPU架构的差距会影响到数据类型的大小,导致在工程非常紧急的时间里还浪费了很多宝贵的时间,鉴于问题的常见性 和 隐秘行,特此列出,以便能帮助需要帮助的人。 解决问题思路:在遇到网络交互数据不对时,可以从如下四方面去排除问题,通常只要使用这三种

windows server 2012 R2 安装桌面体验,安装ActiveSync时提示缺少Windows组件

第一步:启动《服务器管理器》 右键桌面上的"计算机",管理,打开服务器管理器 第二步:选择所有服务器,右键显示出来的服务器,添加角色和功能 第三步,在弹出的弹窗,一直点下一步下一步,到功能位置。 注意安装类型:选择“基于角色或基于功能安装” 然后 点击一下步 服务器选择 :操作: 无需配置,选择下一步 服务器角色:操作: 无需配置,选择下一步 功能 操作 选择 “用户界面和基础结构

视频批量剪辑新境界:一键转码MP4至MP3并自动删除原文件,轻松优化存储空间与播放体验

随着数字媒体的飞速发展,视频文件已成为我们生活中不可或缺的一部分。然而,大量视频文件的累积不仅占据了宝贵的存储空间,而且在某些情况下,我们更希望提取视频中的音频内容。为了满足这一需求,我们推出了全新的视频批量剪辑方案,让你轻松实现MP4到MP3的转码,并自动删除原文件,优化存储空间,提升播放体验。 首先,让我们进入“视频剪辑高手”的主页面。简洁明了的界面设计,让您一眼就能找到所需的功能板

体验了一下AI生产3D模型有感

我的实验路子是想试试能不能帮我建一下实物模型 SO 我选择了一个成都环球中心的网图 但是生成的结果掺不忍睹,但是看demo来看,似乎如果你能给出一张干净的提示图片,他还是能做出一些东西的 这里我延申的思考是这个物体他如果没看过背面,他怎么猜? 他产出的物品为啥都是一张图的,我还是不太理解 但是如果多张图片,其实又和一个多图3D重建的能力似乎重复了 或者我感觉这个功能需求两张图片 正上面45

CEM客户体验管理

客户体验管理(Customer Experience Management, CEM)智能系统是一种集成 的解决方案,可帮助企业跟踪、分析和管理客户与公司的所有交互,从而提高客户体验和满意度。 系统功能应用 该系统的主要功能有会话质检、客户培训、商品体验,售后体验,评价分析。 会话质检功能模块对机器人质检标签进行人工复检并编辑质检标签,添加人工标签也可以进行质检任务分派。 客服培训功能模块

字符串到字节数组和字节数组到字符串的转换(编码和解码问题)

/*  * String(byte[] bytes, String charsetName):通过指定的字符集解码字节数组  * byte[] getBytes(String charsetName):使用指定的字符集合把字符串编码为字节数组  *  * 编码:把看得懂的变成看不懂的  * String -- byte[]  *  * 解码:把看不懂的变成看得懂的