AIGC——ComfyUI使用SDXL双模型的工作流（附件SDXL模型下载）

本文主要是介绍AIGC——ComfyUI使用SDXL双模型的工作流（附件SDXL模型下载），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

SDXL算法概述

SDXL（Stable Diffusion XL）是Stable Diffusion公司发布的一款图像生成大模型。在以往的模型基础上，SDXL进行了极大的升级，其base模型参数数量达到了35亿，refiner模型参数数量达到了66亿。SDXL与之前的版本最大的不同之处在于它由base基础模型和refiner优化模型两个模型构成，使得用户可以在base模型的基础上再利用优化模型进行绘画，从而更有针对性地优化图像质量。
在这里插入图片描述
在这里，第一个模型被称为基础模型（base model）。而第二个模型则是细化模型，它在基础模型生成的图像基础上进一步细化图像的细节。细化模型与基础模型采用相同的VAE潜在扩散模型，但在训练时仅使用较低的噪声水平。在推断时，仅使用细化模型的图像生成能力。对于一个提示，首先使用基础模型生成潜在表示，然后给这个潜在表示添加一定的噪声（通过扩散过程），并使用细化模型进行去噪。通过这种重新添加和去除噪声的过程，图像的局部细节会有所提升。

级联细化模型实际上相当于一种模型集成策略，这种策略在文本生成图像领域已经得到了应用。例如，NVIDIA在《eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers》中提出了集成不同的扩散模型来提升生成质量。另外，利用潜在扩散的图像生成来提升质量也已经得到了应用，例如Stable Diffusion web UI中的high res fix就是基于图像生成来实现的（结合超分辨率模型）。

细化模型和基础模型在结构上有一定的不同，其UNet结构如下图所示，细化模型采用4个阶段，第一个阶段同样采用没有注意力的DownBlock2D，网络的特征维度为384，而基础模型为320。此外，细化模型的注意力模块中的transformer block数量均设置为4。细化模型的参数量为2.3B，略小于基础模型。

另外，细化模型的文本编码器仅使用了OpenCLIP ViT-bigG，同样提取倒数第二层特征和池化文本嵌入。与基础模型相同，细化模型也使用了大小和裁剪条件，此外还增加了图像的艺术评分（aesthetic-score）作为条件，处理方式与之前相同。细化模型可能没有采用多尺度微调，因此没有引入目标尺寸作为条件（细化模型仅用于图像生成，可以直接适应各种尺度）。