Learning-Pixel-level-Semantic-Affinity-with-Image-level-Supervision

2024-05-05 01:08

本文主要是介绍Learning-Pixel-level-Semantic-Affinity-with-Image-level-Supervision,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • paper

when

  • cvpr18,目前top榜第一。有代码。

who

  • 基于像素级标签的图像语义分割

why 提出

  • 分割标签的不足是在自然环境中使用语义分割的主要障碍之一。
  • 为了解决这个问题,我们提出了一种新颖的框架,可以根据图像级别的标签生成图像的分割标签。
  • 在这种弱监督的环境中,已知训练的模型将局部鉴别部分而不是整个对象区域分割。我们的解决方案是将这种定位响应传播到属于同一语义实体的附近区域。
  • 为此,我们提出了一种称为AffinityNet的深度神经网络,它可以预测一对相邻图像坐标之间的语义关联。然后通过AffinityNet预测的相似度随机游走来实现语义传播。更重要的是,用于训练AffinityNet的监督由初始鉴别部分分割给出,其作为分割标注是不完整的,但足以用于学习小图像区域内的语义关联。因此,整个框架仅依赖于图像级类标签,并且不需要任何额外的数据或标注。在PASCAL VOC 2012数据集中,通过我们的方法生成的分割标签学习的DNN优于以前受过相同监督级别训练的模型,甚至比依赖更强监督的模型更具竞争力。

where(适用范围,优点,缺点, 创新点,以前的方法)

出发点

  • 深度神经网络(DNNs)的最新发展推动了语义分割的显着改进 [2, 3, 4, 19, 22, 25, 32, 39] 。 然而,尽管DNN取得了巨大成功,但我们在不受控制和现实的环境中实现语义分割还有很长的路要走。 其中一个主要障碍是缺乏训练数据。 由于像素级分割标签的标注成本过高,现有数据集通常缺乏标注样本和类别多样性。 这使得传统方法限于在数据集中预定义的小范围的对象类别。

  • 已经研究了弱监督方法来解决上述问题并允许语义分割模型更具可扩展性。 他们的共同动机是利用像边界框 [6, 12, 28] 和线 [18, 36] 这样的标注,这些标注比像素级标签弱,但在大量视觉数据中很容易获得,或者由于其低标注而易于获得成本。 在用于语义分割的各种类型的弱标注中,图像级类标签已被广泛使用 [11, 14, 17, 26, 29, 30, 37],因为它们已经在现有的大规模图像数据集中给出(例如,ImageNet [7])或通过搜索关键字自动标注图像检索结果。 然而,利用图像级标签监督来学习语义分割是一个非常病态的问题,因为这种监督仅指示某个对象类的存在,并且不告知对于学习分割必不可少的对象位置和形状。

  • 这一系列研究中的方法已经纳入了额外的证据来模拟监督中缺少的位置和形状信息。定位线索的一个流行选择是类激活图(CAM)[40],它通过追踪隐藏单元对分类DNN输出的贡献来突出显示目标对象的局部鉴别部分。 CAM突出显示的鉴别区域又被用作种子,它们将被传播以覆盖整个对象区域。为了从种子中准确地恢复对象区域,先前的方法利用图像分割 [17, 30] ,视频中的运动 [35] 或两者 [11] ,所有这些都可用于估计对象形状。出于同样的目的,估计了类别不可知的显着区域,并将其与种子结合在一起 [26] 。然而,他们需要额外的数据(即视频)[11, 35],额外的监督(即对象边界框) [26] ,或者不能利用表示学习的现成技术(即图像分割)在DNNs [11, 17, 30] 。

  • 在本文中,我们提出了一种简单而有效的方法来补偿物体形状的缺失信息,而无需外部数据或额外的监督。我们框架的关键组件是AffinityNet,它是一个DNN,它将图像作为输入并预测相邻图像坐标对的语义相似。给定一个图像及其CAM,我们首先构建一个邻域图,其中每个像素在一定半径内连接到它的相邻,并通过AffinityNet估计图中连接的对的语义相似度。然后,对于每个类,CAM中的稀疏激活通过图上的随机游走[23]进行扩散:图中边缘的相似度鼓励随机游走将激活传播到附近和语义上相同的区域,并惩罚传播到其他类的区域。这种语义扩散显着地修改了CAM,从而恢复了精细的对象形状。我们将此过程应用于训练图像,以便通过获取与每个像素处修改的CAM的最大激活相关联的类标签来合成其分割标签。生成的分割标签用于训练出用于测试的分割模型。

  • 剩下的问题是如何在没有额外数据或额外监督的情况下学习AffinityNet。 为此,训练图像的初始CAM被用作监督源。 由于CAM经常遗漏一些对象部分并出现错误,因此它们不完整,作为学习语义分割的监督,其目的是准确地预测整个对象mask。 然而,我们发现它们通常是局部正确的,并提供证据来识别小图像区域内的语义相似度,这是AffinityNet的目标。 为了生成定位语义相似度的可靠标签,我们忽略了CAM上具有相对较低激活分数的区域,以便仅保留高置信对象和背景区域。 然后通过对置信区域上的一对相邻图像坐标进行采样来获得训练样本,并且如果其坐标属于相同类别则其二进制标签为1,否则为0。

创新点

  • 所提出的方法的总体流程如图1所示。首先,计算训练图像的CAM并用于生成语义相似标签,其用作训练AffinityNet的监督。 然后,我们将训练好的AffinityNet应用于每个训练图像,以计算其邻域图的语义相似度矩阵,该矩阵在随机游走中用于修改其CAM并获得合成的分割标签。 最后,生成的分割标签用于训练语义分割DNN,这是将在测试时使用的唯一网络。 我们的贡献是三方面的:
    • 我们提出了一种名为AffinityNet的新型DNN,它可以预测像素级的高级语义相似度,但仅使用图像

这篇关于Learning-Pixel-level-Semantic-Affinity-with-Image-level-Supervision的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/960489

相关文章

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 研究背景和动机 现有的MLLM通常需要大量的参数和计算资源,限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上,这种高成本和高能耗的特点,阻碍了其在移动设备、离线和隐私保护场景中的应用。 文章主要贡献: 提出了MiniCPM-V系列模型,能在移动端设备上部署的MLLM。 性能优越:

IMAGE LIST

   CImageList就是一个容器,用来存储图片资源,方便这些资源被CListBox,CComboBox,CComboBoxEx,CTabCtrl以及CTreeCtrl,CListCtrl等使用。      要使用CImgeList首先要使用它的create函数:      一般用的比较多的是这一个函数,当然,它还有很多重载,自己可以去翻阅msdn.       BOOL

PAT (Advanced Level) Practice——1011,1012

1011:  链接: 1011 World Cup Betting - PAT (Advanced Level) Practice (pintia.cn) 题意及解题思路: 简单来说就是给你3行数字,每一行都是按照W,T,L的顺序给出相应的赔率。我们需要找到每一行的W,T,L当中最大的一个数,累乘的结果再乘以0.65,按照例子写出表达式即可。 同时还需要记录每一次选择的是W,T还是L

【vscode】vscode paste image插件设置

本文首发于 ❄️慕雪的寒舍 vscode编辑md文件的时候,如果想插入图片,自带的粘贴只会粘贴到当前目录下,也没有文件重命名,很不友好。 在扩展商店里面有mushan的Paste Image插件,相比自带的,更加友好一点。但是它的配置把我弄糊涂了,简单测试了一下才明白处理的逻辑。 注意,本文编写的是对mushan的Paste Image插件的教程。 首先是安装这个插件,这个不多说

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二)

pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二) pytorch时空数据处理4——图像转文本/字幕Image-Captionning(二)DatasetInputs to modelCaption LengthsData pipelineEncoderAttentionDecoder代码数据集初始化 create_input_files.py训练 tr

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以