本文主要是介绍Channel Augmented Joint Learning for Visible-Infrared Recognition—详细分析,建议收藏,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Channel Augmented Joint Learning for Visible-Infrared Recognition(可见光-红外行人重识别的通道增强联合学习)
期刊合集:最近五年,包含顶刊,顶会>>网址
文章来源:ICCV2021
实验源码:点这里
研究背景
本文针对可见光-红外行人重识别的问题,提出了一种强大的通道增强联合学习策略。对于数据增强,大多数现有的方法直接采用为单模态可见光图像设计的标准操作,导致在可见光到红外匹配中没有充分考虑图像特性。文章的基本思想是想通过随机交换颜色通道来均匀地生成与颜色无关的图像,所得到的图像可以无缝地集成到现有的增强操作中,而无需修改网络,不断提高对 颜色变化 的鲁棒性。这种方法与随机擦除策略相结合,它通过模拟随机遮挡进一步丰富了多样性。对于跨模态度量学习,本文还设计了一种增强的通道混合学习策略,以同时处理具有平方差的内模态和跨模态的变化,以获得更强的辨别能力。此外,进一步开发了通道增强联合学习策略,以显式优化增强图像的输出。
(1)提出了一种可行的方法,通道可交换增强(CA):缩小输入图像级别的间隙,同时保留信息丰富的颜色信息。
消除模态差异的一个简单解决方案是恢复原始的三色通道(图左边)。然而,将单通道红外图像转换为三通道可见图像是一个具有挑战性的问题,具有不可避免的噪声。 实现过程较难,并且结果不太理想
文章提出直接学习可见光图像的每个R、G和B通道与单通道红外图像之间的关系(图右边)。这用作可见光到红外学习过程的信道增强操作,以增强对颜色变化的 鲁棒性。 文章主要创新点就是围绕颜色变化进行数据增强
(2)提出了一种用于遮挡模拟的随机擦除(CRE)技术。结合通道增强,在通道级别执行擦除,以获得更好的分集。
(3)用于增强的灰度变换(GA),用于减少颜色效果。
这些增强操作大大扩展了训练集,带来了更好的通用性。
跨模态度量学习
① 提出了一种增强的通道混合学习方案。与广泛使用的双向三元组度量学习不同,该学习方案使用的是相同的身份分类器和度量,直接优化混合批次中的特征嵌入,用于原始可见光、红外和通道增强模态。
具体而言,我们为跨模态度量学习设计了具有增强平方差的加权正则化三重态损失,同时处理模态内和模态间变化。这样设计有两个优点:1)它充分考虑了增强图像集中所有可能的三重关系。 2) 平方差近似于大裕度度量学习原理,以提高可辨别性。
② 还开发了通道增强联合学习策略,以明确优化用于训练的通道增强图像。其基本思想是将通道增强的可见图像视为一种额外的模态,制定一个三模态联合学习框架。它略微增加了每个训练步骤的计算负担,但在不增加额外成本的情况下持续提高了测试精度。
创新点
-
提出了一种新的用于可见光红外识别的通道可交换增强技术。它可以很好地集成到现有的增强操作中,这个过程不需要修改网络结构或者改变学习的策略。
-
设计了一个增强的通道混合学习方案,以同时处理图像模态内和模态间的变化。通过联合学习策略,优化了通道增强图像。
主要贡献点说明:数据增强(DA)和跨模态度量学习
论文分析
随机通道可交换增强技术(Random Channel Exchangeable Augmentation)
其中yi和yj是每个图像的带注释训练标签,ℓ(·)是优化关系的目标函数,可以是身份损失、三重态损失或者它们的结合。
假如直接将单通道红外图像直接恢复成三通道的可见图像,这种做法相当有挑战性,所以随机通道交换增强的方法就是通过挖掘每个单独通道(R、G 或 B)与单通道红外图像之间的关系来引入通道增强策略。主要思想是从三通道(R、G 或 B)中随机选择一个通道来替换其他通道,这样就可以通过集中于一个通道来生成新的训练图像。可见光-红外匹配的学习目标的公式为
这公式的作用就是相当于一幅图扩展成三幅图,如下图所示。
左边是可见光的图像集,中间的是利用了通道可交换增强技术之后生成的图像,右边是红外图像。以上的图像都是来自于同一个人的。通过以上的操作,可见光-红外匹配的学习目标变为
与之前的公式相比,区别在于图像的来源有了改变。它可以是经过随机通道增强的图像,也可以是原始三通道RGB图像。这需要一个随机通道增强函数进行判断,
通过使用单个数据加载器来执行随机通道扩展,这不会增加小批量输入的大小。在一般图像变换函数之后,还添加了随机通道增强函数,首先从[0,1,2,3]中选择一个随机整数。该值是用来判断是否保留原始RGB图像还是经过随机通道增强。为了与现有方法进行公正比较,在增强过程中不包含对其他部分进行增强(之后文章会讲到对平方差的增强)。 值得注意的是,文章所提出的增强策略可以无缝地集成到各种基线模型中,不需要修改学习策略或网络架构。
那在这个过程中,CA到底做了什么?通道增强(CA)可以理解为通过分解颜色通道来均匀生成三通道可见图像。该策略鼓励模型f学习可见光图像的每个颜色通道与单通道红外图像之间的显式关系。
为了证明学习到的对颜色变化的具有鲁棒性,可视化了成对的正相似性得分(属于同一身份)和负相似性得分分布(属于不同身份)。横坐标表示余弦相似度得分(余弦相似度是通过衡量两个向量间的夹角大小,通过夹角的余弦值表示结果,余弦相似度的取值为[-1,1],值越大表示越相似),而纵坐标表示10000个随机选择的正/负匹配对的每个量化相似性单元的归一化值。从可视化的图像中,可以发现采用了通道增强技术的RGB-红外和变红外匹配的分离效果较好,可得到以下结论:
结论1:使用通道增强技术增加了正匹配对的不变性,红色模块的相似性的最高值从0.2升到了0.3,表明了在应用了通道增强后,方差也随之减小了,说明了在利用CA的训练模型在输入图像颜色变化信息更为稳定;
结论2:它为负匹配对引入了更大的差异,即成对的负相似度也略有降低(蓝色模块),在向0.0右端在移动。随机颜色变化对不匹配的负样本带来了较大的外观变化,从而引入较大的方差,可辨性增加;
结论3:所提出的通道增强大大提高了对颜色变化的表示鲁棒性。通过通道增强技术,所提出的模型在RGB红外和变化红外匹配方面实现了更好的分离。(可以观察到右上角的红外图像的分离效果,比较差)
通道级随机擦除(Channel-Level Random Erasing)
通道随机擦除技术的基本思想是在训练图像中随机选择矩形区域Ie,并用所有三个通道的随机值替换其像素值,模拟不确定的遮挡,这样做的目的就是为了丰富训练样本的种类。和通道增强技术一样,随机选择不同通道(R、G和B)的擦除区域,公式定义如下。
其中m和n表示像素的坐标位置,α∗由每个通道的平均值计算,单通道红外图像在通道随机擦除过程中将其简单地转换为三个复制的单通道图像。
使用这种方法有两个优点:1. 它进一步丰富了通道,为跨模态特征表示学习提供更丰富的监督,与通道增强一起,擦除的图像大大放大了训练样本集。 经过通道随机擦除(CRE)的操作之后,增多了数据集;
2. 擦除的图像还提高了对图像噪声(例如,部分遮挡、不完美检测)的鲁棒性。
灰度变换(GA)
将随机灰度变换作为增强补充操作,增强对可见红外识别颜色变化的鲁棒性。(会在交融实验中体现使用这种方法的好处)
跨膜态度量学习
增强通道混合学习
一般的跨模态匹配模型通常应用双向三重损失来指导跨模态特征学习,优化跨模态正负对之间的相对距离。然而应用这种方法是有缺点的,就是这种策略并不能有效地解决 模态内的变化。为了同时处理模态内和模态间的变化,本文首先采用通道混合(可以理解为不同模态的混合)的学习策略,构建包含不同模态图像的批次(它在Lid和Lwrt的指导下直接优化关系,而不考虑模态变化)。
Lid损失如下
其中θ0表示在不同的数据增强操作下,通道增强可见图像和红外图像的共享身份分类器。f(xi)是从不同模式中提取图像特征的通用函数,对于不同模态,f(xi)可能不同。
加权正则化三重损失(The weighted regularization triplet loss)旨在从模态内和模态间的关系中优化所有正负对之间的相对距离,还采用了软加函数(softplus)进行优化处理。
增强平方差
基本思想是优化ℓ1范数差,改进如下
使用了增强平方差之后的效果为:
图中横坐标代表的是ui,纵坐标代表的是贡献度。思考:如果我们能够将红色曲线跟蓝色曲线的交点之间的之间的距离进行压缩那么达到的效果就是Marginal Triplets的值会愈来愈倾向于一个最优值,从而实现Squad Softplus的数值高于原本Softplus的值。
增强的通道混合学习直接优化了具有相同身份分类器和距离度量的特征,用于(通道增强的)红外和可见模态。通过平方差,导致对模态内变化的更强鲁棒性,并持续改进交叉匹配性能。(这里的公式较难)
通道增强联合学习
在这里提出了三模态联合学习框架策略,顾名思义就利用CA从可见光图像中生成一个新的增强图像,用它作为附加模态,与增强通道混合学习类似,增强联合学习的目标也是将身份损失Lid和增强加权正则化三元组损失的组合Lsq作为训练的目标。
实验结果
在SYSU_MM01数据集上的效果如下,Rank-1达到的精确度已经很高
在RegDB数据集上的结果如下
消融实验
结论与思考
在本文中,提出了一种较为新颖的用于可见光-红外匹配的随机通道增强方法。它可以很好的适配集成到不同的基线方法中,不需要修改网络结构,显著提高了跨模态的识别工作,还提出了一种具有增强平方差的通道增强联合学习策略,以进一步增强可辨别性。通道增强联合学习策略在不修改网络结构和不改变学习策略的情况下充分利用通道增强图像。对于相同数量的可见光和红外输入图像,它在训练过程中需要占用大量的内存,但在测试阶段与标准设置保持一致。另一个好处是,该策略制定了一个大批量图像,可以为跨模态特征学习提供了更多信息的样本数据集。
疑问:是否可以与当前一些改进网络结构进行结合使用,精确度会不会得到提升?
这篇关于Channel Augmented Joint Learning for Visible-Infrared Recognition—详细分析,建议收藏的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!