《基础模型时代的图像分割》研究综述

本文主要是介绍《基础模型时代的图像分割》研究综述，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

图像分割的目标：将像素划分为不同的组别

现代图像分割方法：①适配基础模型（例如CLIP、Stable Diffusion、DINO）用于图像分割②开发专门的分割基础模型（如SAM）

一、本综述的两大基本研究方向

通用图像分割（即语义分割、实例分割、全景分割）

可提示的图像分割（即交互式分割、参考分割、少样本分割）：指定图像要分割的内容

本综述的贡献：

对基于著名基础模型的最近图像分割方法进行的全面探索，如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。

2.1语义分割

2.1.1基于CLIP

CLIP微调：

CATSeg [153]引入了基于成本聚合的框架，即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。

SemiVL 采用部分调优策略，仅调优自注意力层的参数。

知识蒸馏（KD）：用于转移基础模型的能力

2.1.2基于DM

这里对DM有一个初步的了解

DM指的是Diffusion Model，扩散模型，是一种生成模型，通过逐步去除数据中的随机噪声，从而逐步构建出有意义的数据样本。

DM模型从生成任务到语义分割领域的应用也越来越受到关注。

2.1.3基于DINO

DINO模型是基于自监督学习的视觉模型，旨在从大规模数据集中学习丰富的视觉特征。

2.1.4基于SAM

SAM模型相对比较熟悉，前段时间做过的VOS竞赛，用的是SAM2模型，给出掩码在视频中分割

CLIP在语义理解方面表现出色，而SAM和DINO则擅长空间理解。有许多改进的模型，充分利用了二者的特点，进行了结合。

2.2实例分割

2.2.1 基于CLIP

CLIP在实现开放词汇实例分割中发挥了重要作用

2.2.2 基于DM

DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。

2.2.3 基于DINO

无监督实例分割。它们通常采用两阶段的发现和学习过程：通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码，然后利用这些掩码作为伪标签训练实例分割模型。

2.2.4 基于FMs

通过将实例的边界框作为提示输入，可以轻松地将SAM直接转换为实例分割模型，这些边界框可以通过对象检测器获取，如Faster R-CNN ，Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。

2.3全景分割

二、基于基础模型的交互式分割

对于这个交互式分割，我相对来说比较了解SAM模型，我们也对刚开源的SAM2模型进行过推理，也真正地有过交互，就是可以添加自己想要分割的目标物体，但是目前我只尝试过一个或者两个目标物体，，三个及以上还没有试过

这篇关于《基础模型时代的图像分割》研究综述的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

《基础模型时代的图像分割》研究综述

一、本综述的两大基本研究方向

本综述的贡献：

2.1语义分割

2.1.1基于CLIP

2.1.2基于DM

2.1.3基于DINO

2.1.4基于SAM

2.2实例分割

2.2.1 基于CLIP

2.2.2 基于DM

2.2.3 基于DINO

2.2.4 基于FMs

2.3全景分割

二、基于基础模型的交互式分割

相关文章

基于Python开发一个图像水印批量添加工具

CSS Anchor Positioning重新定义锚点定位的时代来临(最新推荐)

从基础到进阶详解Pandas时间数据处理指南

安装centos8设置基础软件仓库时出错的解决方案

详解如何使用Python从零开始构建文本统计模型

Linux基础命令@grep、wc、管道符的使用详解

Python中OpenCV与Matplotlib的图像操作入门指南

C/C++的OpenCV 进行图像梯度提取的几种实现

c/c++的opencv图像金字塔缩放实现

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析