《基础模型时代的图像分割》研究综述

2024-09-02 22:52

本文主要是介绍《基础模型时代的图像分割》研究综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图像分割的目标:将像素划分为不同的组别

现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)

一、本综述的两大基本研究方向

通用图像分割(即语义分割、实例分割、全景分割)

可提示的图像分割(即交互式分割、参考分割、少样本分割):指定图像要分割的内容

本综述的贡献:

对基于著名基础模型的最近图像分割方法进行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。

2.1语义分割

2.1.1基于CLIP

CLIP微调:

CATSeg [153]引入了基于成本聚合的框架,即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。

SemiVL 采用部分调优策略,仅调优自注意力层的参数。

知识蒸馏(KD):用于转移基础模型的能力

2.1.2基于DM

这里对DM有一个初步的了解

DM指的是Diffusion Model,扩散模型,是一种生成模型,通过逐步去除数据中的随机噪声,从而逐步构建出有意义的数据样本。

DM模型从生成任务到语义分割领域的应用也越来越受到关注。

2.1.3基于DINO

DINO模型是基于自监督学习的视觉模型,旨在从大规模数据集中学习丰富的视觉特征。

2.1.4基于SAM

SAM模型相对比较熟悉,前段时间做过的VOS竞赛,用的是SAM2模型,给出掩码在视频中分割

CLIP在语义理解方面表现出色,而SAM和DINO则擅长空间理解。有许多改进的模型,充分利用了二者的特点,进行了结合。

2.2实例分割

2.2.1 基于CLIP

CLIP在实现开放词汇实例分割中发挥了重要作用

2.2.2 基于DM

DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。

2.2.3 基于DINO

无监督实例分割。它们通常采用两阶段的发现和学习过程:通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码,然后利用这些掩码作为伪标签训练实例分割模型。

2.2.4 基于FMs

通过将实例的边界框作为提示输入,可以轻松地将SAM直接转换为实例分割模型,这些边界框可以通过对象检测器获取,如Faster R-CNN ,Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。

2.3全景分割

二、基于基础模型的交互式分割

对于这个交互式分割,我相对来说比较了解SAM模型,我们也对刚开源的SAM2模型进行过推理,也真正地有过交互,就是可以添加自己想要分割的目标物体,但是目前我只尝试过一个或者两个目标物体,,三个及以上还没有试过

这篇关于《基础模型时代的图像分割》研究综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131303

相关文章

CSS Anchor Positioning重新定义锚点定位的时代来临(最新推荐)

《CSSAnchorPositioning重新定义锚点定位的时代来临(最新推荐)》CSSAnchorPositioning是一项仍在草案中的新特性,由Chrome125开始提供原生支持需... 目录 css Anchor Positioning:重新定义「锚定定位」的时代来了! 什么是 Anchor Pos

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

c/c++的opencv图像金字塔缩放实现

《c/c++的opencv图像金字塔缩放实现》本文主要介绍了c/c++的opencv图像金字塔缩放实现,通过对原始图像进行连续的下采样或上采样操作,生成一系列不同分辨率的图像,具有一定的参考价值,感兴... 目录图像金字塔简介图像下采样 (cv::pyrDown)图像上采样 (cv::pyrUp)C++ O

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re