Channel Augmented Joint Learning for Visible-Infrared Recognition—详细分析,建议收藏

本文主要是介绍Channel Augmented Joint Learning for Visible-Infrared Recognition—详细分析,建议收藏,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Channel Augmented Joint Learning for Visible-Infrared Recognition(可见光-红外行人重识别的通道增强联合学习)

期刊合集:最近五年,包含顶刊,顶会>>网址
文章来源:ICCV2021
实验源码:点这里

研究背景

  本文针对可见光-红外行人重识别的问题,提出了一种强大的通道增强联合学习策略。对于数据增强,大多数现有的方法直接采用为单模态可见光图像设计的标准操作,导致在可见光到红外匹配中没有充分考虑图像特性。文章的基本思想是想通过随机交换颜色通道来均匀地生成与颜色无关的图像,所得到的图像可以无缝地集成到现有的增强操作中,而无需修改网络,不断提高对 颜色变化 的鲁棒性。这种方法与随机擦除策略相结合,它通过模拟随机遮挡进一步丰富了多样性。对于跨模态度量学习,本文还设计了一种增强的通道混合学习策略,以同时处理具有平方差的内模态和跨模态的变化,以获得更强的辨别能力。此外,进一步开发了通道增强联合学习策略,以显式优化增强图像的输出。
 (1)提出了一种可行的方法,通道可交换增强(CA):缩小输入图像级别的间隙,同时保留信息丰富的颜色信息。
在这里插入图片描述
  消除模态差异的一个简单解决方案是恢复原始的三色通道(图左边)。然而,将单通道红外图像转换为三通道可见图像是一个具有挑战性的问题,具有不可避免的噪声。 实现过程较难,并且结果不太理想

  文章提出直接学习可见光图像的每个R、G和B通道与单通道红外图像之间的关系(图右边)。这用作可见光到红外学习过程的信道增强操作,以增强对颜色变化的 鲁棒性文章主要创新点就是围绕颜色变化进行数据增强

 (2)提出了一种用于遮挡模拟的随机擦除(CRE)技术。结合通道增强,在通道级别执行擦除,以获得更好的分集。

 (3)用于增强的灰度变换(GA),用于减少颜色效果。

这些增强操作大大扩展了训练集,带来了更好的通用性。

跨模态度量学习

  ① 提出了一种增强的通道混合学习方案。与广泛使用的双向三元组度量学习不同,该学习方案使用的是相同的身份分类器和度量,直接优化混合批次中的特征嵌入,用于原始可见光、红外和通道增强模态。

  具体而言,我们为跨模态度量学习设计了具有增强平方差加权正则化三重态损失,同时处理模态内和模态间变化。这样设计有两个优点:1)它充分考虑了增强图像集中所有可能的三重关系。 2) 平方差近似于大裕度度量学习原理,以提高可辨别性。

  ② 还开发了通道增强联合学习策略,以明确优化用于训练的通道增强图像。其基本思想是将通道增强的可见图像视为一种额外的模态,制定一个三模态联合学习框架。它略微增加了每个训练步骤的计算负担,但在不增加额外成本的情况下持续提高了测试精度。

创新点

  1. 提出了一种新的用于可见光红外识别的通道可交换增强技术。它可以很好地集成到现有的增强操作中,这个过程不需要修改网络结构或者改变学习的策略。

  2. 设计了一个增强的通道混合学习方案,以同时处理图像模态内和模态间的变化。通过联合学习策略,优化了通道增强图像。
    在这里插入图片描述
    主要贡献点说明:数据增强(DA)和跨模态度量学习

论文分析

随机通道可交换增强技术(Random Channel Exchangeable Augmentation)

在这里插入图片描述
其中yi和yj是每个图像的带注释训练标签,ℓ(·)是优化关系的目标函数,可以是身份损失、三重态损失或者它们的结合。

假如直接将单通道红外图像直接恢复成三通道的可见图像,这种做法相当有挑战性,所以随机通道交换增强的方法就是通过挖掘每个单独通道(R、G 或 B)与单通道红外图像之间的关系来引入通道增强策略。主要思想是从三通道(R、G 或 B)中随机选择一个通道来替换其他通道,这样就可以通过集中于一个通道来生成新的训练图像。可见光-红外匹配的学习目标的公式为
在这里插入图片描述
这公式的作用就是相当于一幅图扩展成三幅图,如下图所示。
在这里插入图片描述
 左边是可见光的图像集,中间的是利用了通道可交换增强技术之后生成的图像,右边是红外图像。以上的图像都是来自于同一个人的。通过以上的操作,可见光-红外匹配的学习目标变为
在这里插入图片描述
  与之前的公式相比,区别在于图像的来源有了改变。它可以是经过随机通道增强的图像,也可以是原始三通道RGB图像。这需要一个随机通道增强函数进行判断,

  通过使用单个数据加载器来执行随机通道扩展,这不会增加小批量输入的大小。在一般图像变换函数之后,还添加了随机通道增强函数,首先从[0,1,2,3]中选择一个随机整数。该值是用来判断是否保留原始RGB图像还是经过随机通道增强。为了与现有方法进行公正比较,在增强过程中不包含对其他部分进行增强(之后文章会讲到对平方差的增强)。 值得注意的是,文章所提出的增强策略可以无缝地集成到各种基线模型中,不需要修改学习策略或网络架构。

  那在这个过程中,CA到底做了什么?通道增强(CA)可以理解为通过分解颜色通道来均匀生成三通道可见图像。该策略鼓励模型f学习可见光图像的每个颜色通道与单通道红外图像之间的显式关系。
在这里插入图片描述
  为了证明学习到的对颜色变化的具有鲁棒性,可视化了成对的正相似性得分(属于同一身份)和负相似性得分分布(属于不同身份)。横坐标表示余弦相似度得分(余弦相似度是通过衡量两个向量间的夹角大小,通过夹角的余弦值表示结果,余弦相似度的取值为[-1,1],值越大表示越相似),而纵坐标表示10000个随机选择的正/负匹配对的每个量化相似性单元的归一化值。从可视化的图像中,可以发现采用了通道增强技术的RGB-红外和变红外匹配的分离效果较好,可得到以下结论:

  结论1:使用通道增强技术增加了正匹配对的不变性,红色模块的相似性的最高值从0.2升到了0.3,表明了在应用了通道增强后,方差也随之减小了,说明了在利用CA的训练模型在输入图像颜色变化信息更为稳定;

  结论2:它为负匹配对引入了更大的差异,即成对的负相似度也略有降低(蓝色模块),在向0.0右端在移动。随机颜色变化对不匹配的负样本带来了较大的外观变化,从而引入较大的方差,可辨性增加;

  结论3:所提出的通道增强大大提高了对颜色变化的表示鲁棒性。通过通道增强技术,所提出的模型在RGB红外和变化红外匹配方面实现了更好的分离。(可以观察到右上角的红外图像的分离效果,比较差)

通道级随机擦除(Channel-Level Random Erasing)

  通道随机擦除技术的基本思想是在训练图像中随机选择矩形区域Ie,并用所有三个通道的随机值替换其像素值,模拟不确定的遮挡,这样做的目的就是为了丰富训练样本的种类。和通道增强技术一样,随机选择不同通道(R、G和B)的擦除区域,公式定义如下。
在这里插入图片描述
 其中m和n表示像素的坐标位置,α∗由每个通道的平均值计算,单通道红外图像在通道随机擦除过程中将其简单地转换为三个复制的单通道图像。
 使用这种方法有两个优点:1. 它进一步丰富了通道,为跨模态特征表示学习提供更丰富的监督,与通道增强一起,擦除的图像大大放大了训练样本集。 经过通道随机擦除(CRE)的操作之后,增多了数据集;
2. 擦除的图像还提高了对图像噪声(例如,部分遮挡、不完美检测)的鲁棒性。

灰度变换(GA)

  将随机灰度变换作为增强补充操作,增强对可见红外识别颜色变化的鲁棒性。(会在交融实验中体现使用这种方法的好处)

跨膜态度量学习

增强通道混合学习

   一般的跨模态匹配模型通常应用双向三重损失来指导跨模态特征学习,优化跨模态正负对之间的相对距离。然而应用这种方法是有缺点的,就是这种策略并不能有效地解决 模态内的变化。为了同时处理模态内和模态间的变化,本文首先采用通道混合(可以理解为不同模态的混合)的学习策略,构建包含不同模态图像的批次(它在Lid和Lwrt的指导下直接优化关系,而不考虑模态变化)。
Lid损失如下
在这里插入图片描述
  其中θ0表示在不同的数据增强操作下,通道增强可见图像和红外图像的共享身份分类器。f(xi)是从不同模式中提取图像特征的通用函数,对于不同模态,f(xi)可能不同。

 加权正则化三重损失(The weighted regularization triplet loss)旨在从模态内和模态间的关系中优化所有正负对之间的相对距离,还采用了软加函数(softplus)进行优化处理。
在这里插入图片描述

增强平方差
基本思想是优化ℓ1范数差,改进如下
在这里插入图片描述
使用了增强平方差之后的效果为:

在这里插入图片描述
图中横坐标代表的是ui,纵坐标代表的是贡献度。思考:如果我们能够将红色曲线跟蓝色曲线的交点之间的之间的距离进行压缩那么达到的效果就是Marginal Triplets的值会愈来愈倾向于一个最优值,从而实现Squad Softplus的数值高于原本Softplus的值。
增强的通道混合学习直接优化了具有相同身份分类器和距离度量的特征,用于(通道增强的)红外和可见模态。通过平方差,导致对模态内变化的更强鲁棒性,并持续改进交叉匹配性能。(这里的公式较难)

通道增强联合学习

在这里插入图片描述

   在这里提出了三模态联合学习框架策略,顾名思义就利用CA从可见光图像中生成一个新的增强图像,用它作为附加模态,与增强通道混合学习类似,增强联合学习的目标也是将身份损失Lid和增强加权正则化三元组损失的组合Lsq作为训练的目标。
在这里插入图片描述

实验结果

在SYSU_MM01数据集上的效果如下,Rank-1达到的精确度已经很高
在这里插入图片描述

在RegDB数据集上的结果如下
在这里插入图片描述
消融实验
在这里插入图片描述

结论与思考

  在本文中,提出了一种较为新颖的用于可见光-红外匹配的随机通道增强方法。它可以很好的适配集成到不同的基线方法中,不需要修改网络结构,显著提高了跨模态的识别工作,还提出了一种具有增强平方差的通道增强联合学习策略,以进一步增强可辨别性。通道增强联合学习策略在不修改网络结构和不改变学习策略的情况下充分利用通道增强图像。对于相同数量的可见光和红外输入图像,它在训练过程中需要占用大量的内存,但在测试阶段与标准设置保持一致。另一个好处是,该策略制定了一个大批量图像,可以为跨模态特征学习提供了更多信息的样本数据集。
疑问:是否可以与当前一些改进网络结构进行结合使用,精确度会不会得到提升?

这篇关于Channel Augmented Joint Learning for Visible-Infrared Recognition—详细分析,建议收藏的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210518

相关文章

为何我建议你学会抄代码?

文章目录 为何我建议你学会抄代码?一、引言二、抄代码的艺术1、理解抄代码的真正含义1.1、抄代码的好处 2、如何有效地抄代码2.1、发现问题2.2、整理需求2.3、造轮子标准流程 三、抄代码的实践案例1、发现问题2、整理需求3、设计重试机制4、实现重试工具类5、使用重试工具类6、优化和扩展 四、总结 为何我建议你学会抄代码? 一、引言 在编程的世界中,“抄代码” 常被视为一

Go Channel的实现

channel作为goroutine间通信和同步的重要途径,是Go runtime层实现CSP并发模型重要的成员。在不理解底层实现时,经常在使用中对channe相关语法的表现感到疑惑,尤其是select case的行为。因此在了解channel的应用前先看一眼channel的实现。 Channel内存布局 channel是go的内置类型,它可以被存储到变量中,可以作为函数的参数或返回值,它在r

收藏:解决 pip install 出现 error: subprocess-exited-with-error 错误的方法

在使用 pip 安装 Python 包时,有时候会遇到 error: subprocess-exited-with-error 错误。这种错误通常是由于 setuptools 版本问题引起的。本文将介绍如何解决这一问题 当你使用 pip install 安装某个 Python 包时,如果 setuptools 版本过高或过低,可能会导致安装过程出错,并出现类似以下错误信息:error: subpr

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

2024数学建模国赛选题建议+团队助攻资料(已更新完毕)

目录 一、题目特点和选题建议 二、模型选择 1、评价模型 2、预测模型 3、分类模型 4、优化模型 5、统计分析模型 三、white学长团队助攻资料 1、助攻代码 2、成品论文PDF版 3、成品论文word版 9月5日晚18:00就要公布题目了,根据历年竞赛题目,可以分析A/B/C/D/E题目大概的类型,提前了解题目特点,在选题上就不会浪费过多时间。下面总结了一下5个题目各

Vue组件文件夹结构建议

全局通用组件 位于src/components。 注意与业务组件区分,全局通用组件更强调基础性。类似于一个UI框架里的各种Input、Button、Tab,只是在此处是你自己封装的。 建议风格 文件夹命名使用PascalBase风格一个文件夹代表一个组件组件使用index.vue导出 示例 目录结构 - src- components- SvgIcon- index.vue 使用

【Oracle篇】全面理解优化器和SQL语句的解析步骤(含执行计划的详细分析和四种查看方式)(第二篇,总共七篇)

💫《博主介绍》:✨又是一天没白过,我是奈斯,DBA一名✨ 💫《擅长领域》:✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌️ 💖💖💖大佬们都喜欢静静的看文章,并且也会默默的点赞收藏加关注💖💖💖 SQL优化续新篇,第二篇章启幕时。 优化器内藏奥秘,解析SQL步

【银河麒麟高级服务器操作系统实例】虚拟化平台系统服务中断现象分析及处理建议

服务器环境以及配置 【机型】虚机 处理器: Kunpeng-920 内存: 40G 【内核版本】 4.19.90-23.8.v2101.ky10.aarch64 【OS镜像版本】 银河麒麟操作系统 Kylin-Server-10-SP1-Release-Build20-20210518-arm64 【第三方软件】 智能运维系统、mysql数据集群 现象描述 环境描

AI产品经理:ai产品经理从零基础到精通,非常详细收藏我这一篇就够了

在互联网的浪潮中,AI人工智能领域无疑是最引人注目的风口。AI产品经理,作为这一领域的新兴岗位,以其高薪、低压力、无年龄限制等优势,吸引了众多互联网从业者的目光。随着GPT等AIGC工具的兴起,AI产品经理的市场需求日益增长。 AI产品经理需不需要懂算法?🤔‍‍‍ AI产品经理不必像算法工程师那样精通算法,但必须能够与算法工程师有效沟通,了解如何管理AI项目,协调项目资源。 成功转行AI产