Salience-Guided Cascaded Suppression Network for Person Re-identification阅读笔记

本文主要是介绍Salience-Guided Cascaded Suppression Network for Person Re-identification阅读笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文：Salience-Guided Cascaded Suppression Network for Person Re-identification
来源：CVPR 2020
论文地址
动机：当前在全局特征和局部特征上结和注意力机制作为最后的特征表示已经成为了一种潮流，但在某些情况下，reid可能取决于在不同情况下显著特征所掩盖的不容易被注意到的特征。也就是说网络在学习到显著特征时会忽略学习其他重要的特征，而这些被显著特征掩盖起来的特征在不同场景中往往能起到重要的作用（比如身体、衣服甚至是鞋子）。

解决方法：
1、介绍了一种新的级联特征抑制网络Salience-guided Cascaded Suppression Network（SCSN），它可以逐阶段挖掘所有潜在的显著特征，并将这些判别显著特征与全局特征相结合，形成行人的最终多样化的特征表示。
2、设计了一个特征提取(SFE)单元，通过抑制最显著的特征来自适应地提取潜在的显著特征。
3、提出了一种高效的特征融合机制，由Residual Dual Attention Module和Non-local Multistage Feature Fusion组成，将提取出来的显著性特征有效融合作为最终的表示特征，提高网络对显著性特征的容量。

网络模型：

SCSN示意图如下：行人图片输入CNN网络进行特征提取，然后在每个阶段都经过SFE显著性特征提取单元进行特征提取。提取到的显著性特征一方面作为最后的输出进行损失优化，一方面再经过特征抑制进一步提取潜在的显著性特征。因此网络的每一个阶段都可以提取到不同的显著性特征，该特征是被上一阶段显著性特征所掩盖的特征。
在这里插入图片描述
网络总体结构图如下：

上图由好几个模块组成：
1、Channel-wise Attention Module(CAM):用来给提取到的特征通道添加注意力（不同的通道有不同的权重大小）。
经过残差网络提取特征之后，使用MaxPool和AvgPool进行特征压缩得到两个不同的一维语义描述符，通过注意力机制聚合这些描述符（两个全连接层）获得通道注意力图Ac，最后将Ac与原来的特征图做点乘，给特征通道添加权重:

在这里插入图片描述
W1和W2是FC的参数，σ 是sigmoid函数，而delta是ReLU。

2、Residual Spatial Attention Module(RSAM):给空间信息添加注意力（图片不同位置的特征信息有不同的权重大小）
将经过通道注意力机制得到的特征图作maxpool和avgpool得到两个特征图，然后卷积成一个获取空间注意力图Wn,n表示第几个阶段。在这里，作者将上一阶段得到的空间注意力模块这一阶段一起传播（也就是残差网络的思想），可以提高空间信息的估计的一致性和鲁棒性。空间注意力map如下公式：
在这里插入图片描述
3、Non Local Fusion:非局部的多级特征融合，聚合来自不同阶段的特征。

简单来说，就是对提取到的高阶特征图Fh和低阶特征图Fl经过一个1×1卷积进行特征压缩

再经过Pyramid Pooling（金字塔池化）后对特征进行融合处理
在这里插入图片描述

在这里插入图片描述
金字塔池化就是用不同大小的卷积核分别对图像下采样，再将采样结果concat在一起。

4、Salient Feature Extraction Unit（SFE）:提取图像的显著性特征
在这里插入图片描述
将特征图水平切分为k个strip,对每一个strip做卷积捕获每个strip的细粒度信息。再经过平均值池化后融合在一起生成一个特征描述符z,在获得特征向量z之后，使用由Softmax激活和元素乘法⊙组成的显着性选择器，这类似于注意力机制。然后，我们可以得到显著敏感的权重W=(w1，…，wk)T和显著局部特征Sal(Xt)。
在这里插入图片描述
下图是每个stage的注意力区域：

我们可以观察到骨干特征不够精确，如背景的干扰（红色圆圈所示）。然而，SFE单元提取的第一阶段特征集中在这些显著特征上（如红色框中所指出的）在显著特征抑制之后，第二阶段发现了一些潜在的特征，这些特征也很重要，但被第一阶段的显著特征所掩盖。