本文主要是介绍《基础模型时代的图像分割》研究综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
图像分割的目标:将像素划分为不同的组别
现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)
一、本综述的两大基本研究方向
通用图像分割(即语义分割、实例分割、全景分割)
可提示的图像分割(即交互式分割、参考分割、少样本分割):指定图像要分割的内容
本综述的贡献:
对基于著名基础模型的最近图像分割方法进行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。
2.1语义分割
2.1.1基于CLIP
CLIP微调:
CATSeg [153]引入了基于成本聚合的框架,即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。
SemiVL 采用部分调优策略,仅调优自注意力层的参数。
知识蒸馏(KD):用于转移基础模型的能力
2.1.2基于DM
这里对DM有一个初步的了解
DM指的是Diffusion Model,扩散模型,是一种生成模型,通过逐步去除数据中的随机噪声,从而逐步构建出有意义的数据样本。
DM模型从生成任务到语义分割领域的应用也越来越受到关注。
2.1.3基于DINO
DINO模型是基于自监督学习的视觉模型,旨在从大规模数据集中学习丰富的视觉特征。
2.1.4基于SAM
SAM模型相对比较熟悉,前段时间做过的VOS竞赛,用的是SAM2模型,给出掩码在视频中分割
CLIP在语义理解方面表现出色,而SAM和DINO则擅长空间理解。有许多改进的模型,充分利用了二者的特点,进行了结合。
2.2实例分割
2.2.1 基于CLIP
CLIP在实现开放词汇实例分割中发挥了重要作用
2.2.2 基于DM
DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。
2.2.3 基于DINO
无监督实例分割。它们通常采用两阶段的发现和学习过程:通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码,然后利用这些掩码作为伪标签训练实例分割模型。
2.2.4 基于FMs
通过将实例的边界框作为提示输入,可以轻松地将SAM直接转换为实例分割模型,这些边界框可以通过对象检测器获取,如Faster R-CNN ,Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。
2.3全景分割
二、基于基础模型的交互式分割
对于这个交互式分割,我相对来说比较了解SAM模型,我们也对刚开源的SAM2模型进行过推理,也真正地有过交互,就是可以添加自己想要分割的目标物体,但是目前我只尝试过一个或者两个目标物体,,三个及以上还没有试过
这篇关于《基础模型时代的图像分割》研究综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!