Self-Supervised Global–Local Contrastive Learning for Fine-Grained Change Detection in VHR Image

本文主要是介绍Self-Supervised Global–Local Contrastive Learning for Fine-Grained Change Detection in VHR Image，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Self-Supervised Global–Local Contrastive Learning for Fine-Grained Change Detection in VHR Image

摘要：目前大多数的对比学习方法主要是像素级别的任务，但是对于像细粒度的变化检测任务需要的是像素级别的判别分析。图像级的CL特征表示可能对FCD的影响有限。为了解决这个问题作者提出了一种全局和局部的对比学习框架，可以将实力识别扩展到像素级别。GLCL遵循当前的主流CL范式，总共由四部分都成：数据增强（生成不同的数据输入视图）特征提取，GL head 和 cl head，分别执行图像级和像素级的实例识别任务。
通过GLCL 可以将同一实例不同视角的特征拉近。不同实例特征外化。，这样可以增强全局和局部特征的判别表示性，从而促进下游FCD任务。此外，GLCL 对 FCD 进行了有针对性的结构适应，即编码器网络由 FCD 的公共主干网络进行，可以加速下游 FCD 任务的部署。在几个真实数据集上的实验结果表明，与其他参数初始化方法相比，GLCL 预训练的 FCD 模型可以获得更好的检测性能。

相关工作
相关工作里主要的是针对图像级别的分类任务，更加关注的是补货全局信息，这可能不利于像素级别的识别任务。因此在文章中提出了一种基于自监督的GLCL框架结构，将实例的识别从图像级别扩展到了像素级别，更有利于FCD任务。结构主要由四部分构成：数据增强，特征提取，全局CL，局部CL。具体来说，首先使用一些增强来生成同一图像对的不同视图。编码网络提取这些图像的特征。为了促进下游 FCD 任务的部署，编码器可以由一些常见的 CD 骨干网络直接承担。最后编码器后面链接着全局CL头和局部CL头进行图像集和像素级的判别。两个headers都包含一个投影仪，用于将特征转换为特定的维度，以及一个预测器，用于预测另一个视图的输出。区别在在于，全局CL header 将整个图像视为一个区分的实例，而local cl header将像素视为一个实例。在local CLheader l里边，由于前边数据增强的变换，局部像素级别的特征不能在同一位置对应。其他视图的相应像素级实例可以通过相似性分析找到。但在实践中，考虑到计算性能的限制和相邻像素的相似性，可以将像素级特征聚合到这些区域级特征中进行区分。全局 CL head 和局部 CL head 同时训练，这可以使特征表示逐渐变得判别，从而促进不同对象的语义区分。训练完成后，可以分离训练有素的编码器，并将其视为 CD 主干网络的良好参数初始化。然后，微调后，这些 CD 主干网络的检测性能将提高。

文章的主要贡献：1.提出了一个GLCL的自监督框架，是基于SimSam的轻量级况加，并可以快速用到下游任务，提高性能
2.GLCL框架将实例识别扩展到了像素级别的，并在像素级别和图像级别执行实例识别任务，这样可以使得编码器更好的学习到判别的特征表示。
3。在几个真实的数据机上实验表明GLCL预训练的模型可以更好的进行特征表示，提高检测性能。

相关方法A. Global–Local Contrastive Learning Framework
对于FCD来说，直接处理大量场景图像是不切实际的，，因此通常需要将图片分成更小的patch image,进行批量处理，用D 表示在同一地理区域拍摄的双时相patch 图像的集合。然后用GLCL 只使用D提取有利于CD的特征表示，而不需要任何额外的数据注释。GLCLhi利用了simsamd的轻量级设计不需要负样本和memory bank.最大的创新就是将GLCL用于FCD任务，是网络能够学习更多的像素级别的判别表示，更有利于FCD任务。
在这里插入图片图片描述
上图为GLCL的流程图，首先GLCL 通过增强的方法生成输入的patch对的两个视图。然后将增强后的图像输入到a Siamese CD 骨干网络里进行特征提取，然后将提取的特征送到全局CL 和局部CL，来形成图像级的和像素级的识别实例任务。在 CL 头中，projectors用于将特征转换为所需的特征形状，预测器用于从另一个视图预测输出。
1.数据增强从D中随机选取patch pair, 在这里插入图片描述由于 CD 是输入图像对的联合分类问题，我们将 x 视为一个整体，并对两个图像使用相同的随机增强，x 的两个增强视图可以表示为

需要注意的是，选择的增强不应该导致图像内容的损失，这主要因为丢失的空间信息可能会干扰像素级别的实例区分。主要的增强方式有随机颜色抖动，随机灰度、随机高斯模糊和随机翻转，其随机概率设置与参考也一致。

特征提取： 到现在我们获取了单个patch 对的实例的不同视图，下边我们腰围后边的工作提取两个视图的特征。由于图像级别的的实例识别任务经常用于图像分类，主干网络经常采用ResNet,VGG等等来提取特征。
同样，在GLCL中，为了更快地适应下游CD任务，FCD中常用的CD骨干网可以作为特征提取器，提取两个输入patch的联合特征表示，如图2的绿色块所示。理论上，大多数 CD 模型都可以发挥这一作用，只要它们可以建立从图像对到特征的映射关系，无论它们联合特征哪个阶段，还是采用跳跃连接和注意力机制等模块，这使得 GLCL 更通用。输入的图像经过CD网络后生产大小为H×W×D的特征y和y1,然后送到GCL个LCL.

3) Global CL Head: GCL由两部分构成，1，全局的projector 将特征处理成所需要的形式hg，
2.一个用于预测另一个视图输出的全局预测器gg，由于全局CL头被设计为执行图像级实例识别任务。hgs首先是由几个卷积层和全连接层聚合来自于y和y1的特征并输出K维的全局特征向量，Zg 和Zg1.将其送入predictor，生成在这里插入图片描述
拟合另一个视图的输出，

**4) Local CL Head:**和全局CL相似，不同的是不同之处在于局部头部专注于更细粒度的特征的 CL，它将每个像素视为判别的单个实例，但是考虑到图像中的每个像素与其相邻像素具有较高的同质性，我们不能直接处理像素特征，而是聚合相邻像素区域的特征进行分析，在不影响学习效果太多的情况下，可以提高计算效率。为此，hl 采用自适应平均池化层来聚合两个视图的区域特征输出! 在这里插入图片描述
但是关键点是每个实例都需要在另一个视图中找到一个匹配实例，就像全局 CL 头所做的那样，为了解决这个问题，这里我们参考了图像配准中常用的相似性度量和匹配技术，将每个实例与其他相似度最高的视图的实例进行匹配。
在这里插入图片描述
sim 是相似性度量函数，才赢余弦相似度

**B. 自监督对比学习
通过我们最终得到了四对预测目标，后续将用于自监督对比学习的训练。在这里，我们通过最小化负余弦相似度来优化框架。对于全局CL头损失函数为
在这里插入图片描述
局部CL头损失函数为
总的损失函数为

可以看出，在最终损失中考虑了全局和局部头部的贡献。通过最小化数据集 D 上的 Lon，我们可以促进前 CD 主干特征提取器来学习更具辨别力和高效的特征表示。但是需要注意的是，在优化过程中，目标分支的参数被冻结，即没有梯度反向传播，如图 2 中的底部箭头所示，这对于确保稳定的训练而不崩溃至关重要

C. Pretrained Model-Based CD
在自我监督对比训练后，作为特征提取器的 CD 主干能够提取有效的判别特征表示。此时，已经训练好的练的主干可以看作是 CD 网络的良好参数初始化状态。为了适应 CD 任务，我们只需将主干网络与 GLCL 分离，并为其后面的 CD 附加一个分类器头
在这里插入图片描述
这个新集成的 CD 模型在某些带注释的训练样本 DTrain 上进行了微调，这里采用交叉熵作为训练损失函数，即

其中 H × W 是输入补丁的空间大小，M 是类别的总数，y nc ∈ {0, 1} 表示第 n 个像素是否属于第 c 个类别，p nc ∈ [0, 1] 是第 n 个像素属于类别 c 的预测概率，可以通过 Softmax 函数计算。训练后，训练好的CD模型最终可以直接用于预测未标记的样本

实验：
工采用了三个数据集 WHUCD, SECOND,SYSU,三个。实施细节：在实验中，所提出的GLCL是基于PyTorch框架[67]实现的，并在双Nvidia RTX 3090 GPU服务器上进行训练。在实现中，特征提取器由其他几个 CD 骨干网络提供服务，其结构与源论文的结构一致。因此，我们只设计了GLCL中全局和局部头部的投影器和预测器以及CD中的CD头部，其详细结构如表I所示。
在这里插入图片描述
在训练期间，对于 GLCL，我们使用随机梯度下降 (SGD) 优化器，初始学习率设置为 0.001，，这与 SimSiam 中的设置一致。在下游CD任务中，我们使用了学习率为0.0001的Adam优化器。在所有阶段，采用小批量训练方式，批大小设置为4，主要考虑大数据和有限的内存大小。

3) 实验主干网络：

FC-EF,FC-Siam-Conc,FC-Siam-Diff ,SNU-Net,BIT, LGPNet

结论
提出了一种新的自监督GLCL框架，用于VHR图像中的FCD任务。整个框架设计为轻量级的，没有负样本和记忆库，大大降低了计算设备的计算能力要求，降低了下游CD任务部署的难度。在所提出的框架中，设计了两个 CL 头、全局和局部来执行图像级和像素级实例识别任务，使网络能够同时考虑全局和局部判别特征表示。基于几个代表性骨干网的两个真实数据集的实验结果表明，我们的框架具有一定的通用性、优越性和鲁棒性。在未来的工作中，我们将继续探索复杂数据条件下的学习理论和方法，以解决实际应用中困难的问题

这篇关于Self-Supervised Global–Local Contrastive Learning for Fine-Grained Change Detection in VHR Image的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！