实例分割之 Mask R-CNN

2024-06-10 05:48
文章标签 mask 分割 实例 cnn

本文主要是介绍实例分割之 Mask R-CNN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:Mask R-CNN

代码地址:facebookresearch/Detectron

Mask R-CNN是在Faster R-CNN的基础上进行了改进。Faster R-CNN主要是用来进行目标识别的,为了能够进行实例分割,Mask R-CNN在Faster R-CNN的基础上加了一个分支,这个分支主要是由一个small FCN(全卷积网络)构成。这个FCN就是用来输出一个Mask,这也就是所谓的Mask R-CNN了。这个Mask 就是为了更准确的对实例的轮廓进行定位,以便进行准确的分割。FCN若要准确的预测实例的轮廓位置,对每个像素进行准确分类,对输入输出特征对齐要求非常高,即输入输出的空间尺度对齐。而Fast R-CNN中的RoIPooling的两步量化操作导致了严重的空间尺度失准,为了克服RoIPooling层的量化操作,Mask R-CNN提出了改进的RoIPooling层,称之为RoIAlign层。RoIAlign层在进行输出固定feature maps的过程中,没有量化过程。总结如下:

1. Mask R-CNN在Faster R-CNN的框架下加入了一个FCN分支,用来输出Mask;

2. Mask R-CNN对Fast R-CNN提出的RoIPooling层进行了改进,提出了RoIAlign层。

下面来看一下Mask R-CNN的总体框图,如下图图1所示:


                                                               图1 Mask R-CNN网络架构

从上图图1的Mask R-CNN的网络架构可以看出,整个架构是基于Faster R-CNN的。首先是读入一张图像,进入backbone architecture(论文中采用ResNet和ResNet-FPN),输出feature maps,接下来的两个分支的处理操作与Faster R-CNN完全一致,接下来的区别就在RoIPooling层与RoIAlign层的区别。下面具体看一下RoIPooling层与RoIAlign层的操作有什么不同,如下图图2所示:


                                                                      图2 RoIPooling层与RoIAlign层输出对比

首先说一下RoIAlign层,论文中描述RoIAlign层是一个quantization-free layer。那么与之相对的RoIPooling层执行了哪些量化操作呢?由Fast R-CNN可知,RoIPooling总共执行了两步量化操作:

第一步:将原图像坐标系输出的region proposals的四元组坐标映射到feature maps上是会根据Pooling层(比如VGG16的con4_x输出的feature maps经历了4个max pooling层)的操作,feature maps的spatial size进行了缩放,比如VGG16用RoIPooling替换掉最后一个max pooling,其输出的feature maps的spatial size相对原图像缩小了16倍,所以将原图像坐标系对应的四元组坐标值均要除以16,此时对于不能整除的结果进行第一步量化,为表示rounding操作。

第二步:在对region proposal进行划分网格的时候,也会遇到不能整除的情况,如上图图2中左上角的图,就因为不能整除,在进行量化的时候,导致无法对region proposal进行均匀划分网格,这回导致输入与输出特征的严重失准。

下面来看一下RoIAlign层是怎么做的。RoIAlign严格避免了上述的两步量化操作,以至于region proposal与划分的网格不能正好包含完整的像素,如上图图2中的第2列所示。RoIAlign是通过双线性插值的方法来得到每个网格的像素值的。如下图图3所示:


并且在上述插值的过程中,实验效果表明,只要这个过程没有量化操作,对于每个网格插值的位置与抽样点数均不敏感,所以在编程实现的时候一般对每个网格只插值一个抽样点。

下面说一下由FCN得到Mask的过程。起初FCN是用于语义分割被提出来的,这里的FCN是用于对每一个由RPN输出的region proposal进行语义分割的,首先由FCN输出81个通道的feature maps(Mask R-CNN在MS COCO上做的实验,MS COCO总共有80类+BG为81类),而选择哪个通道的feature map呢?是这样的,由Classification Head,根据Softmax输出的类别概率分布,选择概率最大值对应的类别标签作为最终的预测类别,然后根据这个预测类别,选出对应的channel。也就是说,如果Classification Head预测的类别为7,则选出FCN输出的第7个通道的feature map,其它通道的feature maps直接被忽略了,在计算FCN Mask的目标函数的时候,他们也不参与。下面看一下的计算:


那么怎样得到最终的输出Mask呢?是这样的,首先Mask经过sigmoid函数,将输出映射到[0, 1]之间的概率值,然后将输出的mxm 的spatial size resize to the RoI size,再采用阈值法,论文中的阈值设为0.5,进行二值化。那么输出的这个Mask在进行实例分割的时候扮演什么样的角色呢?主要是用来大致定位出目标实例的基本轮廓,有利于进一步准确进行实例分割。

Mask R-CNN论文中做的相关实验非常丰富,这里就不讲了,关键在于理解RoIAlign层和添加的FCN分支,在以后会详细讲解Mask R-CNN的代码实现。




这篇关于实例分割之 Mask R-CNN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047362

相关文章

MyBatis-Plus中Service接口的lambdaUpdate用法及实例分析

《MyBatis-Plus中Service接口的lambdaUpdate用法及实例分析》本文将详细讲解MyBatis-Plus中的lambdaUpdate用法,并提供丰富的案例来帮助读者更好地理解和应... 目录深入探索MyBATis-Plus中Service接口的lambdaUpdate用法及示例案例背景

MyBatis-Plus中静态工具Db的多种用法及实例分析

《MyBatis-Plus中静态工具Db的多种用法及实例分析》本文将详细讲解MyBatis-Plus中静态工具Db的各种用法,并结合具体案例进行演示和说明,具有很好的参考价值,希望对大家有所帮助,如有... 目录MyBATis-Plus中静态工具Db的多种用法及实例案例背景使用静态工具Db进行数据库操作插入

Spring中@Lazy注解的使用技巧与实例解析

《Spring中@Lazy注解的使用技巧与实例解析》@Lazy注解在Spring框架中用于延迟Bean的初始化,优化应用启动性能,它不仅适用于@Bean和@Component,还可以用于注入点,通过将... 目录一、@Lazy注解的作用(一)延迟Bean的初始化(二)与@Autowired结合使用二、实例解

前端原生js实现拖拽排课效果实例

《前端原生js实现拖拽排课效果实例》:本文主要介绍如何实现一个简单的课程表拖拽功能,通过HTML、CSS和JavaScript的配合,我们实现了课程项的拖拽、放置和显示功能,文中通过实例代码介绍的... 目录1. 效果展示2. 效果分析2.1 关键点2.2 实现方法3. 代码实现3.1 html部分3.2

使用Python实现批量分割PDF文件

《使用Python实现批量分割PDF文件》这篇文章主要为大家详细介绍了如何使用Python进行批量分割PDF文件功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、架构设计二、代码实现三、批量分割PDF文件四、总结本文将介绍如何使用python进js行批量分割PDF文件的方法

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

Java function函数式接口的使用方法与实例

《Javafunction函数式接口的使用方法与实例》:本文主要介绍Javafunction函数式接口的使用方法与实例,函数式接口如一支未完成的诗篇,用Lambda表达式作韵脚,将代码的机械美感... 目录引言-当代码遇见诗性一、函数式接口的生物学解构1.1 函数式接口的基因密码1.2 六大核心接口的形态学

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如