显著性检测论文详解（一）：BASNet: Boundary-Aware Salient Object Detection

本文主要是介绍显著性检测论文详解（一）：BASNet: Boundary-Aware Salient Object Detection，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

BASNet: Boundary-Aware Salient Object Detection

简述：

对于显著性目标检测，以往的研究大多集中在区域精度上，而不是边界质量上。在这篇论文中，我们提出了一种predict-refine architecture，BASNet，以及一种新的混合损耗来实现边界感知的突出对象的设计。

问题or相关工作：

由上图，可以看到现在的方法（FCN等），预测的显著性图在精细结构和/或边界上仍然有缺陷，显著性预测目标主要存在两个挑战，①需要聚合多层次深度特征来获取整个图像的全局意义。②交叉熵损失容易造成边界模糊。
　　作者使用新的残差模块与U-Net编码器网络相结合，在Encoder-Decoder网络后面连接细化模块改进预测地图。并提出混合交叉损失（BCE、SSIM、IoU）来提高置信度显著图和清晰地边界。

模型：

整体框架：

在这里插入图片描述
　　该架构由一个密集监督的编译码网络和一个残差细化模块组成，分别负责显著性预测和显著性映射细化。经典的Encode-Decode网络， predict网络的结构更加深一些，而fine网络则浅一些。前面的Encode对图像进行提取特征，使用Pooling方法得到了分辨率逐步变小的高层语义特征，后面的Decode部分则负责将高层语义信息逐步还原放大，从而逐步获得大分辨率的feature map图，最终输出和原图一样大小的显著性图。
　　在Encode和Decode之间，会有shortcut，将相同分辨率的feature map图相加，从而让最终的输出的feature map能够兼顾low-level和high-level的特征。除此之外，在decode的过程中，共有 6 种不同分辨率的feature map图，再加上encode阶段最后一层的feature map，一共使用了7个feature map进行loss算，这种多层多loss的方法有点类似于中继loss，一方面可以帮助网络更好的收敛，另一方面可以让网络关注到不同尺度的显著性图。为了细化粗糙显著性映射中的区域和边界缺陷，作者提出的一种新的剩余细化模型如下图c（总框图的右侧）
在这里插入图片描述
混合Loss
　　混合损耗通过融合二进制交叉方向(BCE)、结构相似度(SSIM)和交叉过并(IoU)损耗，引导网络在像素级、patch级和map级三个层次上学习输入图像与地面真实值之间的转换。总的loss等于每层的loss的加权和：
在这里插入图片描述
　　每层的loss又由三部分loss组成：

BCE Loss（其中r，c表示像素坐标，G为真值，S为预测值），因此是pixel-level的loss：
Ssim Loss，其中，x,y集合表示示从预测的显著性图和groundtruth上抠出的NN区域。 μ_x，μ_y，σ_x，σ_y，σ_xy分别为x和y的均值、方差、协方差。*
在这里插入图片描述　　每个像素点的产生的loss都与其附近的局部patch有关（这里是N*N的patch），因此在训练的过程中，会对物体边缘部分的loss值加强，对非边缘部分抑制。正式因为这个loss的存在，使得该算法可以关注到更多的目标显著性的边缘细节信息。