本文主要是介绍Learning-Pixel-level-Semantic-Affinity-with-Image-level-Supervision,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- paper
when
- cvpr18,目前top榜第一。有代码。
who
- 基于像素级标签的图像语义分割
why 提出
- 分割标签的不足是在自然环境中使用语义分割的主要障碍之一。
- 为了解决这个问题,我们提出了一种新颖的框架,可以根据图像级别的标签生成图像的分割标签。
- 在这种弱监督的环境中,已知训练的模型将局部鉴别部分而不是整个对象区域分割。我们的解决方案是将这种定位响应传播到属于同一语义实体的附近区域。
- 为此,我们提出了一种称为AffinityNet的深度神经网络,它可以预测一对相邻图像坐标之间的语义关联。然后通过AffinityNet预测的相似度随机游走来实现语义传播。更重要的是,用于训练AffinityNet的监督由初始鉴别部分分割给出,其作为分割标注是不完整的,但足以用于学习小图像区域内的语义关联。因此,整个框架仅依赖于图像级类标签,并且不需要任何额外的数据或标注。在PASCAL VOC 2012数据集中,通过我们的方法生成的分割标签学习的DNN优于以前受过相同监督级别训练的模型,甚至比依赖更强监督的模型更具竞争力。
where(适用范围,优点,缺点, 创新点,以前的方法)
出发点
-
深度神经网络(DNNs)的最新发展推动了语义分割的显着改进 [2, 3, 4, 19, 22, 25, 32, 39] 。 然而,尽管DNN取得了巨大成功,但我们在不受控制和现实的环境中实现语义分割还有很长的路要走。 其中一个主要障碍是缺乏训练数据。 由于像素级分割标签的标注成本过高,现有数据集通常缺乏标注样本和类别多样性。 这使得传统方法限于在数据集中预定义的小范围的对象类别。
-
已经研究了弱监督方法来解决上述问题并允许语义分割模型更具可扩展性。 他们的共同动机是利用像边界框 [6, 12, 28] 和线 [18, 36] 这样的标注,这些标注比像素级标签弱,但在大量视觉数据中很容易获得,或者由于其低标注而易于获得成本。 在用于语义分割的各种类型的弱标注中,图像级类标签已被广泛使用 [11, 14, 17, 26, 29, 30, 37],因为它们已经在现有的大规模图像数据集中给出(例如,ImageNet [7])或通过搜索关键字自动标注图像检索结果。 然而,利用图像级标签监督来学习语义分割是一个非常病态的问题,因为这种监督仅指示某个对象类的存在,并且不告知对于学习分割必不可少的对象位置和形状。
-
这一系列研究中的方法已经纳入了额外的证据来模拟监督中缺少的位置和形状信息。定位线索的一个流行选择是类激活图(CAM)[40],它通过追踪隐藏单元对分类DNN输出的贡献来突出显示目标对象的局部鉴别部分。 CAM突出显示的鉴别区域又被用作种子,它们将被传播以覆盖整个对象区域。为了从种子中准确地恢复对象区域,先前的方法利用图像分割 [17, 30] ,视频中的运动 [35] 或两者 [11] ,所有这些都可用于估计对象形状。出于同样的目的,估计了类别不可知的显着区域,并将其与种子结合在一起 [26] 。然而,他们需要额外的数据(即视频)[11, 35],额外的监督(即对象边界框) [26] ,或者不能利用表示学习的现成技术(即图像分割)在DNNs [11, 17, 30] 。
-
在本文中,我们提出了一种简单而有效的方法来补偿物体形状的缺失信息,而无需外部数据或额外的监督。我们框架的关键组件是AffinityNet,它是一个DNN,它将图像作为输入并预测相邻图像坐标对的语义相似。给定一个图像及其CAM,我们首先构建一个邻域图,其中每个像素在一定半径内连接到它的相邻,并通过AffinityNet估计图中连接的对的语义相似度。然后,对于每个类,CAM中的稀疏激活通过图上的随机游走[23]进行扩散:图中边缘的相似度鼓励随机游走将激活传播到附近和语义上相同的区域,并惩罚传播到其他类的区域。这种语义扩散显着地修改了CAM,从而恢复了精细的对象形状。我们将此过程应用于训练图像,以便通过获取与每个像素处修改的CAM的最大激活相关联的类标签来合成其分割标签。生成的分割标签用于训练出用于测试的分割模型。
-
剩下的问题是如何在没有额外数据或额外监督的情况下学习AffinityNet。 为此,训练图像的初始CAM被用作监督源。 由于CAM经常遗漏一些对象部分并出现错误,因此它们不完整,作为学习语义分割的监督,其目的是准确地预测整个对象mask。 然而,我们发现它们通常是局部正确的,并提供证据来识别小图像区域内的语义相似度,这是AffinityNet的目标。 为了生成定位语义相似度的可靠标签,我们忽略了CAM上具有相对较低激活分数的区域,以便仅保留高置信对象和背景区域。 然后通过对置信区域上的一对相邻图像坐标进行采样来获得训练样本,并且如果其坐标属于相同类别则其二进制标签为1,否则为0。
创新点
- 所提出的方法的总体流程如图1所示。首先,计算训练图像的CAM并用于生成语义相似标签,其用作训练AffinityNet的监督。 然后,我们将训练好的AffinityNet应用于每个训练图像,以计算其邻域图的语义相似度矩阵,该矩阵在随机游走中用于修改其CAM并获得合成的分割标签。 最后,生成的分割标签用于训练语义分割DNN,这是将在测试时使用的唯一网络。 我们的贡献是三方面的:
- 我们提出了一种名为AffinityNet的新型DNN,它可以预测像素级的高级语义相似度,但仅使用图像
这篇关于Learning-Pixel-level-Semantic-Affinity-with-Image-level-Supervision的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!