18-Weakly-Supervised-Semantic-Segmentation-Network-with-Deep-Seeded-Region-Growing

本文主要是介绍18-Weakly-Supervised-Semantic-Segmentation-Network-with-Deep-Seeded-Region-Growing，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

when

cvpr18

what

本文研究了仅使用图像级标签作为监督来学习图像语义分割网络的问题，这一点很重要，因为它可以显着减少人类的标注工作。
最近关于该问题的最新方法首先使用深度分类网络推断每个对象类的稀疏和鉴别区域，然后使用鉴别区域作为监督来训练语义分割网络。
在种子区域扩展的传统图像分割方法的启发下，我们提出从鉴别区域开始训练语义分割网络，逐步增加种子区域扩展的像素级监督。种子区域扩展模块集成在深度分割网络中，可以从深层特征中受益。
与具有固定/静态标签的传统深度网络不同，所提出的弱监督网络使用图像内的上下文信息生成新标签。所提出的方法明显优于使用静态标签的弱监督语义分割方法，并获得最先进的性能，在PASCAL VOC 2012测试集上获得63.2％的mIoU分数，在COCO数据集上获得26.0％的mIoU分数。

why 提出

由于大量的完全标注图像，深度卷积神经网络（DCNN）在图像语义分割问题上取得了巨大的成功[5,18]。
然而，收集大规模精确的像素级标注是耗时的并且通常需要大量的金融投入。然而，未标记和弱标记的视觉数据可以以相对快速且廉价的方式大量收集。因此，计算机视觉研究的一个有希望的方向是开发可以从未标记或弱标记的图像中学习的对象识别方法[14,32]。
在本文中，我们研究了从弱标记图像学习语义分割网络的问题。在弱标签的各种设置中，图像级标注是最经济和最有效的设置之一。在这种情况下，每个训练图像都有其图像类/类别标签。这意味着属于类标签的对象出现在图像中。但是，对象的位置是未知的。我们需要推断对象的像素级位置。因此，训练弱监督语义分割网络的主要问题是如何准确地将图像级标签分配给它们对应的像素。
为了在训练中建立所需的像素标签对应关系，有一项非常有见地的研究工作。 Kolesnikov等人 [14] 采用图像分类网络和分类激活图（CAM）[37]方法来选择最具鉴别力的区域，并将这些区域用作分割网络的像素级监督。与早期的弱监督语义分割方法[22,20]相比，基于鉴别区域的方法显着改善了这一具有挑战性的任务的性能。然而，在[14]中，鉴别区域是小而稀疏的，如图1中的epoch #0图像所示。在训练中，语义分割网络的监督被固定为稀疏鉴别区域。因此，我们将[14]中的学习策略命名为“静态监督”。静态监督设置偏离了语义分割任务的要求，需要准确和完整的对象区域来训练分割模型。

为了解决这个问题，我们建议在训练分割网络中扩展鉴别区域以覆盖整个对象。实际上，鉴别区域周围的像素总是属于相同的对象，因为同一对象的语义标签具有空间连续性。我们的动机是，使用图像标签能够从感兴趣的对象中找到小而稀疏的鉴别区域，称为“种子线索”，具有相似特征（例如颜色，纹理或深度特征）的种子线索的相邻像素可能具有与种子线索相同的标签。我们利用经典的种子区域增长（SRG）方法 [1] 对此过程进行建模，以生成准确完整的像素级标签。在这里，我们可以在像素级标签的监督下训练语义分割网络。与 [14,19] 不同，像素级标签是动态的。动态监督与使用固定监督的传统网络训练有很大不同。在我们的例子中，我们让网络生成输入训练示例的新标签，即训练图像。 SRG已集成到深度分割网络中，可以端到端进行优化，并享有深层功能。我们将所提出的方法命名为“深度种子区域扩展（DSRG）”，用于弱监督语义分割。

where （改进点）

在训练中，由分类网络定位的种子线索很小但具有高精度。选择种子线索作为SRG中的种子点是一种自然的方式。此外，为了测量种子点和相邻像素之间的区域扩展相似性，我们利用分割网络输出的分割图作为特征。因此，SRG将种子线索视为初始种子点; 然后，在其对应类别上具有高概率的分割图中的相邻像素采用与种子线索相同的标记。重复该过程直到没有满足上述约束的像素。最后，DSRG的输出用作训练分割网络的监督。在训练阶段，监督用于形成损失函数，称为“种子损失”。在种子区域，损失与[5]中的完全监督损失函数相同；种子损失忽略了其他位置。
在训练期间，DSRG方法逐渐丰富了分割网络的监督信息。如图1所示，epoch #0中的监督实际上是由分类模型生成的种子线索，提示定位人和马的头部，这是图像中最具鉴别力的区域。随着epoch的增加，动态监督逐渐接近真实情况并准确地覆盖整个对象内容。同时，动态监督使网络产生竞争性的分割结果。为了确保训练的稳定性，DSRG始终选择原始种子线索作为初始种子点。
在实验中，我们证明了我们的方法对具有挑战性的PASCAL VOC 2012语义分割基准 [8] 和COCO的有效性，并表明我们实现了最先进的最新结果。此外，我们通过进行一些模块研究来提供DSRG方法的分析。
总之，本文的主要贡献总结如下：
- 在深度语义分割网络中，我们利用种子区域扩展 [1] 机制，使网络能够安全地生成新的像素级标签，用于弱监督语义分割。此外，网络可以端到端的方式进行优化，易于训练。
- 我们的工作在PASCAL VOC分割基准和COCO数据集上获得了最先进的弱监督语义分割性能。我们方法的mIoU分别在PASCAL VOC验证集和测试集上分别为61.4％和63.2％，优于许多复杂系统，并且越来越接近全监督的分割系统 [6]（67.6/70.3％ mIoU 在验证集/测试集）。

who（以前的方法，谁受到影响）

1. 图像级别监督的像素标签

Pinheiro等人 [23] 提出了一种新颖的LSE池化方法，它更加重视像素，这对于在训练期间对图像进行分类非常重要。 Papandreou等人 [20] 采用基于期望最大化算法的交替训练程序来动态预测语义前景和背景像素。 Qi等人 [24] 提出了一个统一的框架，包括语义分割和对象定位分支。 [27]提出了一种从预训练网络本身提取明显更准确的mask的新方法。 Wei等[35]提出了一种简单到复杂的学习方法，以逐步增强分割网络。 [29]提出了一种基于CNN的类特定显着图和完全连接的CRF的方法。 Roy等人[26]提出了一种新颖的深层架构，它融合了三种不同的语义分割线索。
最近，Kolesnikov等人 [14] 提出根据训练分割网络的分类网络定位种子线索。然而，[14]只能获得用于监督的小而稀疏的对象相关种子。为了解决这个问题，Oh等人 [19] 提出使用显着性模型作为利用对象范围的附加信息。 Wei等人 [33] 使用对抗性擦除方式迭代训练多个分类网络以扩展鉴别区域。 Arslan等人 [4] 也利用对抗性擦除方式，允许显着性检测网络发现对象的新显着区域。一旦产生了真正的负面区域，它们就没有机会纠正它们。相比之下，我们提出的DSRG方法从种子线索开始非常简单方便，并逐步细化像素级标签作为训练阶段的动态监督。
[20] 和提出的方法都生成动态像素级标签来训练语义分割网络。但是，本文有几个主要的改进。与通过在偏置分割图上应用argmax函数来近似潜在像素级监督的 [20] 不同，我们建议使用种子区域扩展来找到准确和可靠的潜在像素级监督。在对象种子线索的帮助下，我们的DSRG训练方法在训练开始时对非常嘈杂的分割图具有鲁棒性，并且始终以高精度生成像素级监督。

2. 种子区域扩展

种子区域扩展（SRG）[1]是一种无监督的分割方法，用于检查初始种子点的相邻像素，并根据区域相似性标准确定是否应将相邻像素添加到该区域。在基于区域增长执行分割时必须处理两个主要问题：将初始种子放置在图像域中的位置以及应采用哪种相似性标准来表征图像区域。基于简单的手工制作标准 [28] （例如颜色，强度或纹理）选择一些种子像素作为种子的最常用方法。同时，相似性标准 [3] 总是在手工制作的特征上定义。这些设置会导致过度分割和错误分割。相反，DSRG利用由分类网络生成的种子线索作为初始种子以避免错误的种子放置。此外，我们使用深度学习功能计算像素相似度，这些功能已被证明具有高级语义。因此，DSRG可以减少过分割并且不具有传统SRG的合并过程。