《基础模型时代的图像分割》研究综述

2024-09-02 22:52

本文主要是介绍《基础模型时代的图像分割》研究综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图像分割的目标:将像素划分为不同的组别

现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)

一、本综述的两大基本研究方向

通用图像分割(即语义分割、实例分割、全景分割)

可提示的图像分割(即交互式分割、参考分割、少样本分割):指定图像要分割的内容

本综述的贡献:

对基于著名基础模型的最近图像分割方法进行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。

2.1语义分割

2.1.1基于CLIP

CLIP微调:

CATSeg [153]引入了基于成本聚合的框架,即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。

SemiVL 采用部分调优策略,仅调优自注意力层的参数。

知识蒸馏(KD):用于转移基础模型的能力

2.1.2基于DM

这里对DM有一个初步的了解

DM指的是Diffusion Model,扩散模型,是一种生成模型,通过逐步去除数据中的随机噪声,从而逐步构建出有意义的数据样本。

DM模型从生成任务到语义分割领域的应用也越来越受到关注。

2.1.3基于DINO

DINO模型是基于自监督学习的视觉模型,旨在从大规模数据集中学习丰富的视觉特征。

2.1.4基于SAM

SAM模型相对比较熟悉,前段时间做过的VOS竞赛,用的是SAM2模型,给出掩码在视频中分割

CLIP在语义理解方面表现出色,而SAM和DINO则擅长空间理解。有许多改进的模型,充分利用了二者的特点,进行了结合。

2.2实例分割

2.2.1 基于CLIP

CLIP在实现开放词汇实例分割中发挥了重要作用

2.2.2 基于DM

DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。

2.2.3 基于DINO

无监督实例分割。它们通常采用两阶段的发现和学习过程:通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码,然后利用这些掩码作为伪标签训练实例分割模型。

2.2.4 基于FMs

通过将实例的边界框作为提示输入,可以轻松地将SAM直接转换为实例分割模型,这些边界框可以通过对象检测器获取,如Faster R-CNN ,Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。

2.3全景分割

二、基于基础模型的交互式分割

对于这个交互式分割,我相对来说比较了解SAM模型,我们也对刚开源的SAM2模型进行过推理,也真正地有过交互,就是可以添加自己想要分割的目标物体,但是目前我只尝试过一个或者两个目标物体,,三个及以上还没有试过

这篇关于《基础模型时代的图像分割》研究综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131303

相关文章

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

OpenCV图像形态学的实现

《OpenCV图像形态学的实现》本文主要介绍了OpenCV图像形态学的实现,包括腐蚀、膨胀、开运算、闭运算、梯度运算、顶帽运算和黑帽运算,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起... 目录一、图像形态学简介二、腐蚀(Erosion)1. 原理2. OpenCV 实现三、膨胀China编程(

mysql的基础语句和外键查询及其语句详解(推荐)

《mysql的基础语句和外键查询及其语句详解(推荐)》:本文主要介绍mysql的基础语句和外键查询及其语句详解(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录一、mysql 基础语句1. 数据库操作 创建数据库2. 表操作 创建表3. CRUD 操作二、外键

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Python基础文件操作方法超详细讲解(详解版)

《Python基础文件操作方法超详细讲解(详解版)》文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,:本文主要介绍Python基础文件操作方法超详细讲解的相... 目录一、文件操作1. 文件打开与关闭1.1 打开文件1.2 关闭文件2. 访问模式及说明二、文件读写1.

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ