行人重识别阅读笔记之Salience-Guided Cascaded Suppression Network for Person Re-identification

本文主要是介绍行人重识别阅读笔记之Salience-Guided Cascaded Suppression Network for Person Re-identification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

行人重识别阅读笔记之Salience-Guided Cascaded Suppression Network for Person Re-identification

  • 介绍
  • 网络结构
    • 残差双重注意力模型Residual Dual Attention Module
      • Channel-wise Attention
      • Residual Spatial Attention
    • 非局部多阶段特征融合Non-local Multistage Feature Fusion
    • 显著特征提取装置Salient Feature Extraction Unit
    • 显著性引导级联抑制网络Salience-Guided Cascaded Suppression Network
    • Loss function
  • 总结

paper: https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Salience-Guided_Cascaded_Suppression_Network_for_Person_Re-Identification_CVPR_2020_paper.pdf.

介绍

利用注意力机制对全局特征和局部特征建模作为行人最终表征,已然成为ReID算法的发展趋势。但是这些方法存在一个潜在的局限性:他们关注的是最显著的特征,但是对于一个人的重识别可能依赖于不同情况下被显著特征掩盖的不同线索,如身体、衣服甚至鞋子。为了解决这个问题,作者提出了一种新的显著性引导级联抑制网络Salience-guided Cascaded Suppression Network(SCSN),它使模型能够挖掘不同的显著性特征,并通过级联的方式将这些特征集成到最终的表示中。

本文的工作如下:
1、观察到以前学习的特征可能会阻碍网络学习其他重要信息。为了解决这一局限性,引入一种级联抑制策略,该策略使网络能够逐级挖掘被其他显著特征掩盖的各种潜在有用特征,并且每一阶段集成不同的嵌入特征用于最后的区分行人表征。

2、提出一个显著特征提取Salient Feature Extraction(SFE)单元,该单元可以抑制之前级联阶段学习到的显著特征,然后自适应地提取其他潜在显著特征,从而获得行人的不同策略。

3、开发了一种有效的特征聚合策略,充分提高网络对所有潜在显著特征的能力。

显著性引导级联抑制网络。对于训练,每一阶段都有loss的梯度来引导。在测试过程中,将不同阶段的特征连接起来,最终生成不同的行人表征。得益于抑制策略,潜在的重要特征可以在下一阶段凸显出来,使得不同阶段发现行人的不同线索。

这些基于注意力和基于部分的全局-局部方法的一个重要局限性是,缺乏对如何有效提取不同行人的差异化潜在显著特征的探索。一方面,基于注意力的方法主要关注人体的区分表象,然而,由于深度模型的部分学习行为,在弱监督方式下训练的注意力机制倾向于在一个紧子空间学习“最简单”的特征。用人话说,就是深层模型容易关注表面分布规律,而不是更一般、更多样化的概念,容易忽略行人潜在的信息。另一方面,基于部分的方法通过将输入分割成许多水平条纹来处理错位,并提供更丰富的细粒度局部特征,然而,随着零件数量的增加,精度的提高缺微乎其微,甚至越来越差。因为过于精细的划分剥夺了各部分的语义信息,也造成了网络的冗余。此外,如果将各种特征不加区分地连接在一起,一些显著的、强度不明显的区别特征会被其他显著特征掩盖。因此,如何有效地提取不同的显著特征,并将这些特征合理地整合在一起,是ReID任务中值得探讨的问题。

本文为了进一步提高模型的特征表示能力,提出了一个显著性引导的级联特征抑制机制,使网络能够自适应地提取所有潜在的显著行人特征。作者提出了一种特征聚合策略,该策略包括残差双注意力模块(RDAM)和非局部多阶级特征融合(NMFF)模块,以更好地聚合主干的高低层次特征,以及显著特征提取(SFE)单元,以有效地提取不同的潜在特征。在特征聚合策略的帮助下,网络可以更好地利用底层特征,如衣服的颜色和条纹,这大大提高了骨干的特征表示能力。在特征抑制机制中,为了增加信息流,首先将某一阶段学习到的显著特征与全局特征进行融合,增强这一阶段的特征识别力,然后对其进行抑制,得到下一阶段的无显著性输入特征。同样地,对于剩余的阶段,在先前的显著特征被抑制后,网络将利用SFE单元挖掘其他一些重要的潜在特征。
在这里插入图片描述
综上所述,本文提出的工作有如下贡献:
1、引入了一种新的级联特征抑制机制,可以逐级挖掘所有潜在的显著特征,并将这些区别性显著特征与全局特征整合,最终形成行人的多样化特征表示。

2、设计了一个显著特征提取单元SFE,通过抑制最显著特征自适应地提取潜在显著特征。

3、结合了一个有效的特征聚合策略,包括RDAM和NMFF模块,增加网络对所有潜在显著特征的容量。

网络结构

在这里插入图片描述
命名规则:输入的feature map记为Xt,增强的feature map记为Yt,输出至下一阶段的抑制feature map记为Xt+1。

框架如上图所示。

残差双重注意力模型Residual Dual Attention Module

RDAM由信道注意力模块Channel-wise Attention Module(CAM)和残差空间注意力模块Residual Spatial Attention Module(RSAM)组成。其中CAM探索信道特征之间的相关性,RSAM负责探索空间维度语义上较强的特征。

Channel-wise Attention

训练好的CNN模块中的高级卷积特征对语义相关的对象具有显著的定位能力。通过显式地建模卷积特征的通道之间的相互依赖关系,引入信道注意力来增强对不同行人的表征能力。为了获得通道注意力权重,同时使用平均池(确定对象的范围)和最大池化(识别一个区分部分)来压缩输入特征映射的空间维度,生成两个不同的一维上下文描述符:Mc avg和Mc max。然后通过一个注意机制来聚合这些描述符,以获得信道注意映射Ac。注意力代理的详细架构如上图所示。对于输入,信道注意向量计算如下:
在这里插入图片描述
其中,W1和W2分别为FC层的参数,σ, δ分别表示Sigmoid和ReLU函数。所构造的信道注意力Acis通过信道乘法进一步应用于原始特征映射,以增强更多的信息信道,抑制较少有用的信道。然后,剩余空间注意模块进一步利用所获得的特征表示。

Residual Spatial Attention

残差空间注意力的目的是引导网络在空间维度上收集更多必要的语义信息。首先通过平均池化操作和最大池化操作对feature map的信道信息进行聚合,生成两个二维map:Ms avg∈RHxW和Ms max∈RHxW。然后使用卷积层来聚合Ms avg,Ms max,进而得到编码强调或抑制位置的空间注意力图Wn∈RHxW,n为一个阶段的层指数。在这里插入图片描述
其中β是一个可训练的变量,初始化为1,σ是sigmoid激活函数,将每个阶段的第一层设置As 0=0,最后As n通过元素乘法应用于输入,如上图(B)所示。

非局部多阶段特征融合Non-local Multistage Feature Fusion

不同层次的特征融合有助于语义分割、分类和检测。
在这里插入图片描述
作者考虑了两种非局部融合块的源信息:高水平feature map Fh∈RCxHxW和低水平feature map Fl∈RCxHxW,式中,C、W、H分别为通道数、特征的宽度、高度。然后,使用三个1x1卷积的分别是ψq、ψv和ψk来把F转换为紧凑的嵌入Fq∈RCxN、Fl∈RCxS和Fl∈RSxC:在这里插入图片描述
其中Nh=WhxHh,S表示金字塔平均池化像素,如下图所示在这里插入图片描述
将softmax应用于Fk、Fq的矩阵乘法,得到相似矩阵M∈RSxN,然后通过M和Fv的矩阵乘法计算融合输出Fhl∈RCxN:在这里插入图片描述
综上所述,对于用于特征融合的n个阶段,最终得到的多级融合特征Ff:在这里插入图片描述
式中,φ表示1x1卷积。

显著特征提取装置Salient Feature Extraction Unit

在这里插入图片描述
如上图所示,SFE可分为Salience Descriptor和Salience Selector。
Salience Descriptor:将输入均匀地分割为若干个基于局部的stripes,每个stripes的大小为Cx(H/K)xW,其中K为stripes的数量,然后做卷积,再进行批处理归一化和ReLU,来获取每个stripes的细粒度信息,生成形状为1x(H/K)xW的简洁特征描述符。然后对特征描述符进行全局平均池化,得到特征向量z。

Salience Selector:在获得的特征向量z之后,使用显著选择器,包括一个softmax和一个element-wise乘法⊙,类似于一个注意力机制。得到显著敏感权重W=(w1,w2,……,wk)T
在这里插入图片描述
Sal(Xt)在t阶段被突出显示,而在t+1阶段被抑制。

显著性引导级联抑制网络Salience-Guided Cascaded Suppression Network

Multi-Stage Suppression:采用ResNet50作为骨干,将stage3和stage4的下采样步伐改为1,从主干中提取基本特征后,逐级提取潜在显著特征。

对于t阶段,先通过SFE单元提取显著特征Sal(Xt),然后将Sal(Xt)与基本输入特征Xt集成:
在这里插入图片描述

其中Yt为显著性增强特征。Sal(Xt)的提升缓解了由于全局平均池化而导致的细节信息稀释,求和积分法也避免了因串联而导致的维度无效率。

为了挖掘其他潜在显著特征,在t阶段的输出上使用显著掩膜来抑制Sal(Xt),得到t+1阶段的输入Xt+1:
在这里插入图片描述

其中B是二进制掩码,其最显著的Sal(Xt)取0,其他取1。抑制操作减轻了Sal(Xt)对其他特征的覆盖效应,使潜在信息脱颖而出。
对于网络,作者将主干的最后一个卷积块和一个SFE单元作为全局(t=1)阶段,全局上下文提取的特征是所有基于条带化特征中最显著的特征。接下来按照同样的方式继续挖掘突出特征。下图为4个外观相似的硬样本直观的显著特征可视化图。
在这里插入图片描述
为了避免信息冗余,首先对提升后的输出进行全局池化,生成2048维的特征向量,然后利用FC层对特征向量进行降维。在实验中,全局阶段使用平均池化法得到特征向量,后续阶段使用最大池化法,因为显著性抑制操作会导致特征均值不稳定。

Loss function

识别损失得到图像的ID prediction logits,与分类损失类似,定义为:在这里插入图片描述
其中y和pi分别真实ID标签和i类的预测logit,N表示类数,qi是平滑标签,ε = 0.1用于平滑标签。
引入三重损失来提高最终排名,定义为:在这里插入图片描述
其中dp为同一身份的特征距离,dn为不同身份的距离。N为三重损失的批处理大小,[•]+表示max(•,0),三重损失的目的是保证正样本对之间的距离小于负样本对之间的距离,最终损失可以定义为:
在这里插入图片描述

总结

简单来说,输入样本在Resnet 50进行特征提取,将每个残差模块的输出到Residual Dual Attention Module,再拿到Non-local function进行特征融合,作为第一个stage的输入,再stage里先进行SFE做切片特征提取,再与原输入进行增强,将增强后的特征保存,SFE输出的结果拿去进行显著特征抑制,总共三个stage都是一样的步骤,并且分别进行loss计算。

在Non-local function里,先对特征通道间构建注意力,在对通道间构建注意力,融合在一起得到下一层的输入。

这篇论文是通过提取潜在显著特征的方法里进行ReID工作。

有不足之处还请。

这篇关于行人重识别阅读笔记之Salience-Guided Cascaded Suppression Network for Person Re-identification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/155386

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓