【论文解读】SAM模型超级进化：面向移动端的轻量级SAM，比FastSAM快4倍！（附论文地址）

2024-09-01 17:04

文章标签 模型解读地址超级论文面向端的移动轻量级 sam 进化 fastsam

本文主要是介绍【论文解读】SAM模型超级进化：面向移动端的轻量级SAM，比FastSAM快4倍！（附论文地址），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址：https://arxiv.org/pdf/2306.14289.pdf

这篇论文的标题是《FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS》，由Chaoning Zhang等人撰写，发表于2023年。

文章主要探讨了如何将Segment Anything Model（SAM）优化，使其更适合移动设备应用。以下是对论文内容的解读：

研究背景与动机

Segment anything model (SAM) 是一个基于提示的视觉基础模型，用于将感兴趣的物体从其背景中切割出来。自Meta研究团队发布SAM(Segment anything model)项目以来，引起了极大的关注，因为它具有令人印象深刻的零样本迁移特性和与其他模型兼容的高通用性，可用于高级视觉应用，如具有细粒度控制的图像编辑。许多这样的用例都需要在资源受限的边缘设备上运行，如移动应用程序。在这项工作中，我们的目标是通过用一个轻量级的图像编码器取代重量级的图像编码器，使SAM成为移动友好型的。最初的SAM模型体积较为庞大，分割效果最好的ViT-H 模型达632M，因此在推理速度上不尽人意。我们发现，这主要是由图像编码器和掩码解码器的耦合优化造成的，在此基础上，我们提出了解耦蒸馏法。具体来说，我们将原始SAM中的图像编码器ViT-H的知识提炼成1个轻量级的图像编码器，它可以与原始SAM中的掩码解码器自动兼容。训练可以在1天之内在单个GPU.上完成，由此产生的轻量级SAM被称为MobileSAM，它的体积小了60多倍，但性能与原始SAM相当。就推理速度而言，MobileSAM每张图像的运行时间约为10ms:图像编码器为8ms,掩码解码器为2ms。凭借卓越的性能和更高的通用性,我们的MobileSAM比同期的FastSAM小7倍，快4倍，使其更适合移动端的应用。

SAM

上图给出了SAM架构示意图，它包含一个"重量级"ViT编码器与一个提示词引导Mask解码器。解码器以图像作为输入，输出将被送入Mask解码器的隐特征(embedding)；Mask解码器将基于提示词(如point、bbox)生成用于目标分割的Mask。此外，SAM可以对同一个提示词生成多个Mask以缓解"模棱两可"问题。

MobileSAM

延续SAM架构体系：采用轻量级ViT解码器生成隐特征，然后采用提示词引导解码器生成期望的Mask。

为了训练新的MobileSAM，作者提出了一种新颖的解耦蒸馏方法来训练MobileSAM。这个方法包括两个关键步骤，

其优势在于简单、有效，且成本低（在单GPU上不到一天的训练时间）。

图像编码器蒸馏

将原始SAM中的重型图像编码器（ViT-H）的知识转移到一个轻型图像编码器中。这一步骤通过简单的均方误差（MSE）损失来实现，而不是使用复杂的损失函数。

SAM的耦合知识蒸馏。左图表示完全耦合蒸馏，右图表示半耦合蒸馏。

可选的掩码解码器微调

尽管这一步是可选的，但作者发现通过微调可以进一步提高MobileSAM的性能，尤其是在与轻型图像编码器的兼容性方面。

从半耦合到解耦蒸馏。

耦合蒸馏和解耦蒸馏对于使用ViT-B作为图像编码器的SAM的比较。解耦蒸馏表现更好，并且所需的计算资源不到耦合蒸馏的1%。

从上表对比了耦合蒸馏与解耦合蒸馏的初步对比。可以看到：

从指标方面，解耦合蒸馏方案指标稍高，0.75mIoU vs 0.72mIoU；
从训练GPU方面，解耦合蒸馏方案仅需两个GPU，远小于耦合蒸馏方案的128卡，大幅降低了对GPU的依赖；
从迭代次数方面，解耦合蒸馏方案仅需55k次迭代，远小于耦合蒸馏方案的180K，大幅降低了训练消耗；
从训练数据方面，解耦合蒸馏方案仅需11K数据量，远小于耦合蒸馏方案的11M，大幅降低了数据依赖。

尽管如此，但ViT-B对于移动端部署仍然非常困难。因此，后续实验主要基于TinyViT进行。

实验与评估

作者基于ViT-Tiny进行本文所提方案的有效性验证，所得MobileSAM与原生SAM的参数+速度的对比可参考上表。在训练方面，仅需SA-1B的1%数据量+单卡(RTX3090)，合计训练8个epoch，仅需不到一天即可完成训练。

具体的实验设置

使用1%的SA-1B数据集进行训练，共8个epoch。
训练过程中，作者采用了小批量大小和适量的迭代次数，以优化训练效率。
评估指标主要为平均交并比（mIoU），用于衡量MobileSAM生成的掩码与原始SAM生成的掩码之间的一致性。

实验结果

MobileSAM的参数数量比原始SAM减少了60倍，推理速度提高了约5倍。
MobileSAM在单GPU上每张图片的处理时间约为10ms，其中图像编码器处理时间为8ms，掩码解码器处理时间为4ms。
MobileSAM在CPU上的运行也相对流畅，表明其适用于资源受限的环境。
通过对比实验，作者证明了MobileSAM在性能上与原始SAM相当，但在速度和大小上明显优于FastSAM。

下图给出了point与bbox提示词下MobileSAM与原生SAM的结果对比，可以看到：MobileSAM可以取得令人满意的Mask预测结果。

下图从Segment everything角度对比了SAM、FastSAM以及MobileSAM三个模型，可以看到：

MobileSAM与原生SAM结果对齐惊人的好，而FastSAM会生成一些无法满意的结果
FastSAM通常生成非平滑的边缘，而SAM与MobileSAM并没有该问题

结论与贡献

文章最后总结了MobileSAM的主要贡献：

提出了一种新的解耦蒸馏方法，使得SAM模型能够适应移动设备，同时保持与原始SAM相同的性能。
MobileSAM显著减少了模型大小和提高了推理速度，实现了轻量化和快速化，非常适合移动设备应用。
MobileSAM的代码和演示已经公开，便于研究者和开发者进一步研究和应用。

这篇论文的研究成果对于推动SAM在移动应用领域的应用具有重要意义，同时也为未来相关技术的发展提供了新的思路和方法。

这篇关于【论文解读】SAM模型超级进化：面向移动端的轻量级SAM，比FastSAM快4倍！（附论文地址）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1127531。 23002807@qq.com

相关文章

python3 gunicorn配置文件的用法解读

python3 gunicorn配置文件的用法解读

《python3gunicorn配置文件的用法解读》：本文主要介绍python3gunicorn配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python3 gunicorn配置文件配置文件服务启动、重启、关闭启动重启关闭总结python3 gun

阅读更多...

关于pandas的read_csv方法使用解读

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》：本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

阅读更多...

Python中使用正则表达式精准匹配IP地址的案例

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式？IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

阅读更多...

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》：本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

阅读更多...

使用Python自建轻量级的HTTP调试工具

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

阅读更多...

java之Objects.nonNull用法代码解读

java之Objects.nonNull用法代码解读

《java之Objects.nonNull用法代码解读》：本文主要介绍java之Objects.nonNull用法代码,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录Java之Objects.nonwww.chinasem.cnNull用法代码Objects.nonN

阅读更多...

Java的IO模型、Netty原理解析

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容：标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO（blocking I/O）NI

阅读更多...

基于Flask框架添加多个AI模型的API并进行交互

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》：本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

阅读更多...

SpringCloud负载均衡spring-cloud-starter-loadbalancer解读

SpringCloud负载均衡spring-cloud-starter-loadbalancer解读

《SpringCloud负载均衡spring-cloud-starter-loadbalancer解读》：本文主要介绍SpringCloud负载均衡spring-cloud-starter-loa... 目录简述主要特点使用负载均衡算法1. 轮询负载均衡策略（Round Robin）2. 随机负载均衡策略（

阅读更多...

解读spring.factories文件配置详情

解读spring.factories文件配置详情

《解读spring.factories文件配置详情》：本文主要介绍解读spring.factories文件配置详情,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录使用场景作用内部原理机制SPI机制Spring Factories 实现原理用法及配置spring.f

阅读更多...