显著性目标检测论文总结---SSF

2023-10-19 09:20

本文主要是介绍显著性目标检测论文总结---SSF,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SSF总结

Select, Supplement and Focus for RGB-D Saliency Detection CVPR2020

RGB-D显著性检测的选择、补充和聚焦
在这里插入图片描述

1、论文主要研究内容

本文提出了一种基于全局位置和局部细节互补的精确RGB-D显著性检测的新框架。这是通过设计一个互补的交互模块(CIM)来从RGB和深度数据中有区别地选择有用的表示,并有效地集成跨模态特性来实现的。利用所提出的CIM,融合的特征可以精确地定位具有精细边缘细节的显著目标。此外,本文提出了一种补偿感知损失,以提高网络检测复杂样本的可信度。
(1)本文设计了一个互补的交互模块(CIM),以区别地探索跨模态的互补性,并有效地融合跨模态特性。我们的CIM通过区域注意力将这两种模态联系起来,并通过补充丰富的边界信息来加强每一种模态。
(2)本文引入补偿感知损失来提高网络对复杂样本的置信度。为此,所提出的损失进一步帮助我们的网络挖掘跨模态特征中包含的结构信息,确保在具有挑战性的场景中显著性检测的高稳定性。

2、SSF总体架构在这里插入图片描述

此框架中:
1、基于VGG-16的编码器分别从RGB图像和深度图像学习特征表示。
2、VGG-16的每个级别生成显著性边缘预测可以得出3、4、5层能够纯粹和完整的显著性边缘信息。
3、VGG-16的第一层、第二层弃用,从第三层开始,使用高级的边缘细节。

2.1 模型原理

首先,两个基于VGG16的编码器分别从RGB图和深度图中提取特征,然后将这两个提取到的特征输入到CIM模块中,经过CIM模块输出边缘特征和跨模态融合特征,接下来分两步走:将三个尺度的边缘特征输入到边缘解码器中,最后输出的是预测边缘图将三个尺度的融合特征输入到显著性解码器,输出的是预测显著图。然后使用预测边缘图和真实边缘图,真实图和深度图来计算显著目标的权重,从而监督最终的显著图。

2.2 跨模态注意力单元(CAU模块)

在这里插入图片描述
不同模态之间的差距使得多模态特征的线性融合策略对复杂场景的适应性较差。为了解决这个问题,本文提出了一个跨模态注意力单元,其目的是从RGB和深度模态特征中有效地选择有用的信息。

CAU模块原理
首先,将深度映射(0-1)划分为 m 个二值掩码图,以帮助找到有用的区域,用于显著性目标检测。二进制掩码映射和深度映射共享相同的分辨率。
具体来说,对于深度映射,本文将深度区域 ((i-1)/m,i/m) 中的像素设置为1,其他像素设置为 0 以生成 ith 掩码图(映射)。对于 RGB 模态,本文首先生成一个粗略的显著图,即从编码器的第五层通过1×1卷积 (Spr=Conv(Fr5)) 生成一个初始的显著性图。

初始的显著性图输入到RGB模态区域选择中,用来指导深度层的选择,同时,深度图被分为M个二进制掩码,输入到深度模态区域选择中,之后,本文将处理后的特征分别与对应的RGB特征和深度特征进行特征融合,对应元素相乘。将融合后的特征输入到信道级别的注意力机制中,将RGB特征和经过注意力机制的特征进行特征融合连接。同理,将深度特征和经过注意力机制处理后的特征进行特征融合,之后输出刷选之后的RGB特征和深度特征。

2.3 边界补充单元(BSU)

在这里插入图片描述
现有的RGB-D显著性检测方法由于存在池化操作而存在边界模糊的问题,难以从深度流中提取边界细节,导致模糊预测。

BSU模块原理:
本单元旨在有效的探索RGB模态编码器高级(VGG16:l3, l4, l5)的边缘细节。本单元设计了一个多尺度的边界特征提取器,该提取器包含四个不同感受野的并行扩张卷积块,然后将得到的互补显著性边缘特征与各层次显著性特征融合。之后,本文在每个模态的CAU和BSU之后连接特征,分别从深度模态和RGB模态生成增强特征Fdout^([l]) , Frout^([l])。

2.4 译码器(Decoder)

在这里插入图片描述
译码器模块原理
对于第m层,本文首先采用反向密集连接来实现所有深层特征的跳跃连接。考虑到第m层只学习特定级别的表示,本文使用更深层次的特性来补充第m层的上下文信息。然后将多层特征上采样到128×128的空间分辨率,并将其连接。最终的结果可以使用1×1卷积来生成。

2.5 补偿感知损失

在这里插入图片描述
在这里插入图片描述
本文提出的CIM模型能有效地增强从位置和边界细节中提取的特征。然而,对于一些复杂的样本,提取的跨模态补偿和边界细节仍然不真实。因此,本文引入了一个定制的损失函数,以更多地关注那些复杂的样本。

补偿感知模块原理
本文利用边界预测作为特权信息来挖掘RGB图像具有挑战性的边界区域。在生成边界预测后,本文生成具有挑战性区域的权值图wb:
在增加权重的过程中,为了使本模型可以适用于那些比较有挑战性的样本,本文针对有挑战性的边缘信息样例和不可靠深度信息样例进行权重增加,将显著性映射图和深度图进行权重增加,将显著性边缘映射图和深度边缘图进行权重增加,之后将增加权重的特征进行特征融合。

3、实验结果分析

在这里插入图片描述
结果分析:
本图展示了一个8行11列的显著性检测结果图。
前4行显示具有挑战性的场景,包括透明物体(第1行),多物体(第2行),低对比度场景(第3行),小物体(第4行)。这些结果表明,本文的网络能够在这些具有挑战性的情况下准确捕获显著区域。此外,第5-6行展示了本文的方法在不可靠深度图方面的优越性。在这些场景中,现有的RGB-D方法无法检测到显著部分,被不正确的深度图所误导。另一方面,本文的网络可以通过提出的跨模态注意力单元(CAU)挖掘有用的信息来应对这些场景。此外,本文选择了两个具有复杂显著目标边界的例子(第7-8行),表明本文的模型不仅定位了显著目标,而且分割出了更精确的边界细节。

4、结论

本文努力迎接了更准确的RGB-D显著性检测的挑战,提出了一个新的精确RGB-D显著性检测框架,考虑了两种模式的局部和全局互补性。它包括一个互补的交互模型,该模型由一个跨模态注意力单元和一个边界补充单元组成,以捕获有效的特征,用于定位显著目标和细化边界细节。此外,本文还提出了一种补偿感知损失来提高网络在检测复杂样本时的置信度。
实验结果表明,该方法在6个公共显著性基准上取得了最先进的性能。

综上所述:这篇2020年在CVPR上发表的显著性检测论文:Select, Supplement and Focus for RGB-D Saliency Detection 是一篇很值得研究的论文,其网络结构具有很强的推广性,希望此总结能够帮助大家更好的理解这篇文章!

这篇关于显著性目标检测论文总结---SSF的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/238876

相关文章

Kubernetes常用命令大全近期总结

《Kubernetes常用命令大全近期总结》Kubernetes是用于大规模部署和管理这些容器的开源软件-在希腊语中,这个词还有“舵手”或“飞行员”的意思,使用Kubernetes(有时被称为“... 目录前言Kubernetes 的工作原理为什么要使用 Kubernetes?Kubernetes常用命令总

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

Python中实现进度条的多种方法总结

《Python中实现进度条的多种方法总结》在Python编程中,进度条是一个非常有用的功能,它能让用户直观地了解任务的进度,提升用户体验,本文将介绍几种在Python中实现进度条的常用方法,并通过代码... 目录一、简单的打印方式二、使用tqdm库三、使用alive-progress库四、使用progres

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

Java向kettle8.0传递参数的方式总结

《Java向kettle8.0传递参数的方式总结》介绍了如何在Kettle中传递参数到转换和作业中,包括设置全局properties、使用TransMeta和JobMeta的parameterValu... 目录1.传递参数到转换中2.传递参数到作业中总结1.传递参数到转换中1.1. 通过设置Trans的

C# Task Cancellation使用总结

《C#TaskCancellation使用总结》本文主要介绍了在使用CancellationTokenSource取消任务时的行为,以及如何使用Task的ContinueWith方法来处理任务的延... 目录C# Task Cancellation总结1、调用cancellationTokenSource.

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖