DiffusionMat:Alpha Matting as sequential refinement learning

2024-03-05 20:36

本文主要是介绍DiffusionMat:Alpha Matting as sequential refinement learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.introduction

DiffusionMat的基本思想是未知区域的抠图可以逐步改进,并从每一次的迭代的反馈中受益,纠正和细化结果。

2.related works

Segdiff、BitDiffusion、DiffusionDet、

3.Approach

通过一种新颖的校正策略将trimap引导转化为精确的alpha matte。

3.1 Proceure

        给定输入图像I以及trimap guidance m,我们的目标是推导出相应的alpha,与现有的一次性预测方法不同,引入了一种顺序细化学习策略,将有噪声的trimap转化为清晰的alpha。trimap到alpha的转换可以视为条件图像生成过程,SDEdit为此生成提供了一个简单的流程,通过随机微分方程的迭代去噪来合成给定导向下的输出图像。SDEdit从trimap guidance m开始最初使用随机噪声扰动创建时间步T处的有噪声掩码mT,随后这个破坏的trimap mT通过扩散模型的采样过程经历去噪的迭代,最终得到alphaSDE。

3.1.1 Deterministic Denoising

         在SDEdit中,由于随机噪声带来的随机性,可以将噪声引导的trimap图像去噪为任意的alpha抠图,然而作为一项感知任务,图像抠图只有一个确定性的alpha抠图,为了获取精确的alpha,我们使用GT反转引导来纠正中间去噪结果,具体来说,给定GT alpha,通过DDIM反转将其映射到预训练的扩散模型上,并获得确定性的反转轨迹,可以纠正过程中用作监督信号。在每个去噪时间步t中,使用图像编码器Etheta和纠正模块Ctheta来纠正中间的去噪结果mt,首先使用图像编码器etheta对图像I进行编码,得到图像特征fI,随后,将fI和mt拼接起来,将这个组合输入传递给纠正模块Ctheta,生成纠正的去噪结果mtcorr,

3.1.2 Alpha reliability propagation

        对所有像素学习修正是不必要的,因为trimap和alpha之间的差异只存在与未知区域,引入了Alpha Reliability Propagation(ARP)模块,通过已知区域调整中间的去噪结果。

 3.1.3 loss function        

4.experiments

3090训练,unet架构作为扩散模型,去掉了unet中的att_block,swin-unet作为图像编码器,纠正网络结构和扩散模型相同,都是unet,输入图像512x512,

这篇关于DiffusionMat:Alpha Matting as sequential refinement learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/777741

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

Matplotlib图像读取和输出及jpg、png格式对比,及透明通道alpha设置

图像像素值 图像像素值一般size为3,也就是通道数,分别代表R,G,B,如果只有单一 一个值则表示灰度值,也就是说一张二维图片,当长和宽都为1080时,那么若是灰度图像,图像尺寸为(1080,1080,1)若是RGB图像则为(1080,1080,3), jpg、png图像格式 jpg图像的灰度值范围和RGB范围为[0,255],数值类型为uint8,也就是无符号整数 png图像的灰度值范

Kubernetes的alpha.kubernetes.io/nvidia-gpu无法限制GPU个数

问题描述: Pod.yaml文件中关于GPU资源的设置如下: 然而在docker中运行GPU程序时,发现宿主机上的两块GPU都在跑。甚至在yaml文件中删除关于GPU的请求,在docker中都可以运行GPU。 原因: 上例说明alpha.kubernetes.io/nvidia-gpu无效。查看yaml文件,发现该docker开启了特权模式(privileged:ture): 而

android xml之动画篇 alpha、scale、translate、rotate、set的属性及用法 和

1.简介 Android的补间动画TweenAnimation由四种类型组成:alpha、scale、translate、rotate,对应android官方文档地址:《Animation Resources》 逐帧动画 FrameAnimation(也称 Drawable Animation  ):animation-list alpha 渐变透明度动画效果 scale 渐变

Android AnimationDrawable资源 set[translate,alpha,scale,rotate]

本文内容摘自《疯狂Android讲义 第三版-李刚著作》 xml <?xml version="1.0" encoding="utf-8"?><set xmlns:android="http://schemas.android.com/apk/res/android"android:duration="1000"android:fillAfter="true"android:f

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow