PointRend: Image Segmentation as Rendering（论文解读二十四）

本文主要是介绍PointRend: Image Segmentation as Rendering（论文解读二十四），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Title：PointRend: Image Segmentation as Rendering

Code ：PyTorch

From：arxiv

Note data：2020/02/27

Abstract：提出了PointRend（基于点的渲染）神经网络模块，该模块基于迭代细分算法在自适应选择的位置执行基于点的分段预测。

Abstract

1 Introduction

2 Related Work

3 Method

1.Point Selection（点选择）

2.逐点表示

3.Point Head

Abstract

论文提出一种基于点渲染的分割方法PointRend；

网络结构：PointRend（基于点的渲染）神经网络模块，该模块基于迭代细分算法在自适应选择的位置执行基于点的分段预测；

创新：从采样过程出现的问题出发将分割问题看做图像渲染问题，已解决现有方法出现的过采样和欠采样问题；

动机：解决分割任务中采样过程出现的问题。

我们提出了一种新的方法来对物体和场景进行有效的高质量图像分割。通过将经典的计算机图形方法模拟为有效渲染，以解决像素标记任务面临的过采样和欠采样问题，我们开发了一种独特的视角，将图像分割视为渲染问题。从这个角度出发，我们提出了PointRend（基于点的渲染）神经网络模块：该模块基于迭代细分算法在自适应选择的位置执行基于点的分段预测。通过在现有最新模型的基础上构建，PointRend可以灵活地应用于实例和语义分割任务。尽管可以实现该总体思想的许多具体实现，但我们表明，简单的设计已经可以实现出色的结果。定性地，PointRend在先前方法过度平滑的区域中输出清晰的对象边界。从数量上讲，PointRend
在实例分割和语义分割方面，COCO和Cityscapes均获得了显着收益。 PointRend的效率可以实现与现有方法相比在内存或计算方面不可行的输出分辨率。

1 Introduction

在现有的语义分割/实例分割模型中，模型一般会输出一个原图1/8或1/16大小的预测图，而后通过双线性插值来补齐最后的8x/16x分辨率，尽管还有膨胀卷积等来替换上采样层以获得更高的精度，但其需要的内存和计算量往往较大。

本文的中心思想是将图像分割视为一个渲染问题，并使计算机图形学中的经典思想适应有效地“渲染”高质量的标签图。将此计算思想封装在一个称为PointRend的新神经网络模块中，该模块使用细分策略来自适应地选择要在其上计算标签的一组非均匀点。对于实例分割和语义分割，可以将PointRend合并到流行的元体系结构中。

存在的问题：

过采样（ oversample ）：对于图片中低频区域（属于同一个物体），没必要使用太多的采样点，却使用太多采样点造成过采样；
欠采样（ undersample ）：对于图片中高频区域（靠近物体边界），如果这些区域的采样过于稀疏，导致分割出的边界过于平滑，不大真实。

论文给出的解决方案：

PointRend使用细分策略在需要计算标签的区域选择一组非均匀的采样点，而后为其预测类别。、
PointRend是一个通用模块，可以有多种形式的实现。它接受一个或多个典型的CNN feature map，然后输出高分辨率预测。
PointRend不会对输出网格上的所有点进行过多预测，而只会对精心选择的点（不确定性较强的点）进行预测。
PointRend通过插值操作来提取选中点的点级特征，并使用一个小的point head子网络根据逐点特征来预测输出feature map

2 Related Work

渲染：计算机图形学中的渲染算法输出规则的像素网格。但是它们通常在一组非均匀点上计算这些像素值。像细分和自适应采样这样的有效程序可以在像素值具有较大方差的区域中完善粗光栅化。光线跟踪渲染器通常使用过采样，该技术会比输出网格更密集地采样某些点，以避免混叠效果。

非均匀网格表示： 规则网格上的计算是2D图像分析的主要范例，但其他视觉任务却并非如此。在3D形状识别中，由于三次缩放，大型3D网格是不可行的。大多数基于CNN的方法都不会超出粗略的64x64x64网格。相反，最近的工作考虑了更有效的非均匀表示，PointRend可以在任何点计算分段值。PointRend专注于在输出上进行非均匀采样。尽管目前尚无关于实例分割的证明，但可以将两种方法结合起来使用。

3 Method

将CV中的图像分割问题建模成计算机图形学中的图像渲染问题。

渲染：渲染器将模型（如 3D 网格）映射到点阵图像，即像素的规则网格。

计算机图形学的思路：对图像平面中被自适应选择点的不规则子集计算出像素值。从而高效渲染出抗锯齿的高分辨率图像。

图像分割，同样可以视作底层连续实体的占用图，然后从中输出预测标签的矩形网格。类比计算机图形学的思路，使用细分策略来自适应地选择一组非均匀点，进而计算标签。

图像分割步骤

使用轻量级的分割头，对每个检测到的对象（红框）进行粗略的mask预测。
选择一组点（红色点），用小规模的多层感知器（MLP）为每个点进行独立预测。
对这样的细分算法进行迭代，以从粗到细的方式计算mask。

1.Point Selection（点选择）

PointRend的核心思想是，在图像平面中自适应地选择预测分割标签的点。那么这些点主要分布在哪里呢？理论上讲，这些点应该在高频区域分布较广（比如说图像的边缘）。

推断：用于推断的点选择策略受到计算机图形学中自适应细分（adaptive subdivision）这一经典技术的启发。该技术通过计算与其近邻的值显著不同的位置，来高效渲染高分辨率图像（如通过光线追踪）；其他位置的值则通过内插已经计算好的输出值来获得（从粗糙网格开始）。

训练：在训练过程中，PointRend 还需要选择点来构建训练 point head 所需的逐点特征。原则上，点选择策略类似于推断过程中使用的细分策略。但是，细分策略使用的顺序步骤对于利用反向传播训练神经网络不那么友好。因此，训练过程使用基于随机采样的非迭代策略。

2.逐点表示

PointRend通过组合低层特征 (fine-grained features) 和高层特征 (coarse prediction)，在选定的点上构造逐点特征。在细粒度特征（fine-grained features）方面，为了让PointRend呈现出精细的分割细节，研究人员为CNN特征图中的每个采样点提取了特征向量。

细粒度特征虽然可以解析细节，但也存在两方面的不足：

（1）不包含特定于区域的信息，对于实例分割任务，就可能在同一点上预测出不同的标签。比如两个重叠的实例中的一点具有相同的细粒度特征，故该点只会被预测到其中一个实例中。

（2）用于细粒度特征的特征映射，可能仅包含相对较低级别的信息。受通过哪张feature map提取细粒度特征的影响，提取到的细粒度特征可能只包含low level的特征，相比之下具有更多上下文和语义信息的feature map会更有价值。

基于上述讨论，第二种特征是从网络中抽取一个粗的分割预测，比如对每个点，预测一个k维的向量用来对应表示k个类别各自的概率。这种粗预测特征，类似现有的语义分割结构，同样使用与现有模型相同的监督方式进行监督。比如对实例分割，粗预测特征可以使用Mask R-CNN输出的轻量级7*7 mask head。再比如对于语义分割，它可以是预测一个原图下采样16倍的feature map.

这就需要粗略分割预测 (coarse prediction) 来进行补充，提供更多全局背景。

这样的粗略预测类似于现有架构的输出。以实例分割为例，coarse prediction可以是Mask R-CNN中 7×7 轻量级mask head的输出。