diffusion model 合集

2024-09-07 11:28
文章标签 model 合集 diffusion

本文主要是介绍diffusion model 合集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

diffusion model 整理

DDPM:

  • 前向一步到位,从数据集里的图片加噪声,根据随机到的 t t t 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。
  • 模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去:
    在这里插入图片描述
  • 训练过程是对每个样本分配一个随机的t,采样一个高斯噪声 ϵ \epsilon ϵ,然后根据 t 对图片和噪声进行混合,将加噪的图片和 t 送进模型,预测噪声,计算预测的噪声和 ϵ \epsilon ϵ的L2距离。
  • 测试过程则是采样一个高斯噪声 x T x_T xT,迭代T步地利用模型来预测噪声,利用公式来减去噪声得到当前步的均值,然后加一个乘以方差的高斯噪声模拟 q ( x t − 1 ∣ x t ) q(x_{t-1}|x_t) q(xt1xt)的采样,重复T步,最后一步不加噪,得到最后的生成结果。
  • DDPM是一个随机采样高斯噪声,从噪声生成图片的生成模型。
  • 参考自:https://zhuanlan.zhihu.com/p/563661713
  • 论文链接:https://arxiv.org/pdf/2006.11239.pdf

DDIM

  • 从DDPM的训练过程我们可以看到,我们算损失的时候并不需要一步步前向,可以根据公式一步到位,那我们可不可以通过抛弃这种马尔科夫链的思考方式,加速推理过程的迭代,不要一步一步地走呢。
  • DDIM提出将DDPM视为非马尔可夫过程,而采样其中的一些节点,这些节点组成的子图是一个马尔可夫过程。并且将反向的过程定义为确定过程,也就是把反向过程中加噪声的那一步去掉了。
  • DDIM主要就是加速了DDPM,减少了采样的步数并且将反向过程变为了确定过程,一旦初始的随机噪声 x T x_T xT选定了,反向过程每一步生成的就是确定的。
  • 参考自:https://zhuanlan.zhihu.com/p/565698027
  • 论文链接:https://arxiv.org/pdf/2010.02502.pdf

Diffusion models beat GAN on image Synthesis

  • 探索了一些网络结构。更重要的是,给出了利用分类器引导反向过程的idea,即在反向过程的step中,向预测的 x t − 1 x_{t-1} xt1分布的均值加一个动量,这个动量是 x t x_t xt送进分类器(预先在加噪的图像分类数据集上train好的一个网络)的对应类别(如狗)的损失对 x t x_t xt的梯度。通过反向过程中不断的引导,最终使得生成的图片是对应类别的图片(如狗)。
  • 模型是不需要重新训练的,train好的普通diffusion模型就能直接用这种方式干预反向过程使得推理生成指定类别的图片。

More Control for Free! Image Synthesis with Semantic Diffusion Guidance

  • 这个工作是对上面 classifer guidance的推进,上面用分类器的梯度来引导生成图片,这篇工作则提出,不只是分类器,各种损失都可以用同样的方式来引导diffusion过程,比如利用CLIP的文本和图片之间的距离损失的梯度可以实现文本指导的图像生成,图片和图片之间的style loss+perceptual loss可以实现图像指导的图像生成。

Classifier-Free Diffusion Guidance

  • 这个工作是对上面classifier guidance的方法提出了另一个思路,取消了classifier。模型的输入包括了类别的条件向量和图片,训练过程中以一定几率将类别条件向量置空。测试的时候,采样过程中,每一步会采样两次,一次是置了条件向量的,一次是条件向量置空的,两个输出的加权平均(有条件的权重是 ( 1 + ω ) (1+\omega) (1+ω),无条件的权重是 − ω -\omega ω,所以其实是减法关系)得到下一次采样的结果。
  • 通过这样的方式,在有标签的数据集上训练diffusion模型,可以实现利用类别标签控制生成图片的类别,利用 ω \omega ω控制条件引导的力度,但是缺陷很突出,需要重新训练。
  • 模型的结构也没有在论文中进行披露,我还挺想知道这个条件向量是怎么融合进去的。

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

  • 基本是对上面两种方案的改进,专注于文本引导,模型换大版,两种方案都试了。用的backbone是Diffusion models beat GAN on image Synthesis的模型,原先是没有文本注入的,现在把文本信息也注入进去了。所以现在训练的时候模型已经明确是有文本的,是在有文本标注的图像数据集上train的。对于classifier-free的方案,就再finetune一下,finetune的时候把20%的文本换成空文本即可。对于classifer-guidance方案,就直接用CLIP来算(要先train一个noised CLIP)
  • 采用的方案是先train一个文本引导的diffusion,但只能输出64x64的图片,然后再train一个文本引导的SR diffusion模型把分辨率提高到256x256.
  • 这个工作还试了文本引导的inpainting任务

stable diffusion

这篇关于diffusion model 合集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1144926

相关文章

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求,要求做一款播放器,发现能力上跟EasyPlayer.js基本一致,满足要求: 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏(单屏/全屏) 多分屏(2*2) 多分屏(3*3) 多分屏(4*4) 播放控制 播放(单个或全部) 暂停(暂停时展示最后一帧画面) 停止(单个或全部) 声音控制(开关/音量调节) 主辅码流切换 辅助功能 屏

C++语法知识点合集:11.模板

文章目录 一、非类型模板参数1.非类型模板参数的基本形式2.指针作为非类型模板参数3.引用作为非类型模板参数4.非类型模板参数的限制和陷阱:5.几个问题 二、模板的特化1.概念2.函数模板特化3.类模板特化(1)全特化(2)偏特化(3)类模板特化应用示例 三、模板分离编译1.概念2.模板的分离编译 模版总结 一、非类型模板参数 模板参数分类类型形参与非类型形参 非类型模板

MVC(Model-View-Controller)和MVVM(Model-View-ViewModel)

1、MVC MVC(Model-View-Controller) 是一种常用的架构模式,用于分离应用程序的逻辑、数据和展示。它通过三个核心组件(模型、视图和控制器)将应用程序的业务逻辑与用户界面隔离,促进代码的可维护性、可扩展性和模块化。在 MVC 模式中,各组件可以与多种设计模式结合使用,以增强灵活性和可维护性。以下是 MVC 各组件与常见设计模式的关系和作用: 1. Model(模型)

Linux性能分析工具合集

Linux性能分析工具合集 工具合集主要包含以下各种工具,对于了解Linux系统结构、网络结构、内核层次具有一定的帮助。 Linux Performance Observability ToolsLinux Static Performance ToolsLinux Performance Benchmark ToolsLinux Performance Tuning ToolsLinux

JVM合集

序言: 1.什么是JVM? JVM就是将javac编译后的.class字节码文件翻译为操作系统能执行的机器指令翻译过程: 前端编译:生成.class文件就是前端编译后端编译:通过jvm解释(或即时编译或AOT)执行.class文件时跨平台的,jvm并不是跨平台的通过javap进行反编译 2.java文件是怎么变成.class文件的? 属于前端编译 3..class文件解读 采用1

使用亚马逊Bedrock的Stable Diffusion XL模型实现文本到图像生成:探索AI的无限创意

引言 什么是Amazon Bedrock? Amazon Bedrock是亚马逊云服务(AWS)推出的一项旗舰服务,旨在推动生成式人工智能(AI)在各行业的广泛应用。它的核心功能是提供由顶尖AI公司(如AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI以及亚马逊自身)开发的多种基础模型(Foundation Models,简称FMs)。

C语言程序与设计第四版课后习题 - 1~8章大合集

前言 本文章是一个大合集,按照课后习题的命名方式命名,方便寻找,只需要在目录上点相对应的题号即可在这里插入图片描述 第一章课后习题 1.1 编写一个C程序 题目概述: 请参照本章例题,编写一个C程序,输出一下信息: *****************************Very good!***************************** 代码实现: #define

Differential Diffusion,赋予每个像素它应有的力量,以及在comfyui中的测试效果

🥽原论文要点 首先是原论文地址:https://differential-diffusion.github.io/paper.pdf 其次是git介绍地址:GitHub - exx8/differential-diffusion 感兴趣的朋友们可以自行阅读。 首先,论文开篇就给了一个例子: 我们的方法根据给定的图片和文本提示,以不同的程度改变图像的不同区域。这种可控性允许我们再现

《黑神话:悟空》专题合集MOD/修改器/壁纸/音乐/CG剧情

《黑神话:悟空》专题合集」 链接:https://pan.quark.cn/s/d67857f4e308 包含内容: 《黑神话:悟空》MOD合集 《黑神话:悟空》修改器(风灵月影) 《黑神话:悟空》壁纸合集 《黑神话:悟空》3小时CG完整剧情合集 4K120帧最高画质!国语 简中字幕 附:4K 结尾动画合集 ​​​国语 简中字幕 《黑神话:悟空》主题曲 《黑神话