基于神经塑性的地球观测多模态基础模型 (慕尼黑工业大学, TUM)

本文主要是介绍基于神经塑性的地球观测多模态基础模型 (慕尼黑工业大学, TUM)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation

2403.15356 (arxiv.org)

------| 本博客非完整版，完整版请参阅原文 |------

Abstract

基础模型的发展彻底改变了利用卫星观测数据解释地球表面的能力。传统模型相互孤立，专为特定传感器或数据类型（如光学、雷达和高光谱等，每种都具有独特特性）量身定制。这种专业化限制了进行全面分析的可能性，而全面分析本可以整合这些多样化数据源的优势。本文的方法引入了“动态全能”（Dynamic One-For-All，简称DOFA）模型，该模型利用脑科学中的神经可塑性概念，将各种数据模态自适应地整合到一个框架中。这个动态超网络能够适应不同的波长，使一个通用的Transformer能够在五个传感器的数据上联合训练，从而在14项不同的地球观测任务中表现出色，包括在预训练期间从未见过的传感器任务。DOFA的创新设计为实现更准确、高效和统一的地球观测分析提供了有力跳板，在利用多模态地球观测数据的潜力方面展现出了惊人的适应性和性能。

Introduction

通过卫星遥感进行的地球观测（EO）迅速使能够更深入地建模和理解地球系统。这一追求得益于卫星和传感器的日益部署，它们各自设计用于以不同的空间、光谱和时间分辨率捕捉地球表面的不同方面。观测技术的进步释放了超过数百拍字节的数据洪流，这些数据覆盖了大气层、海洋、陆地和冰冻圈，为各种物理和生物过程提供了前所未有的见解。来自Landsat、Sentinels、MODIS、EnMAP、高分和NAIP9等多样化任务的数据，为本文呈现了一幅丰富而复杂的地球表面图景。通过人工智能解读这些多方面的地球观测数据，可以解锁从气候监测到灾害响应和可持续发展的复杂环境过程理解的非凡可能性。

传统的深度学习模型利用这些多样化数据源中的标注数据集来训练特定任务的模型。然而，这种范式需要大量的人力投入进行数据集收集和标注，以及大量的计算资源进行模型训练和评估。为了应对这些挑战，通常在广泛数据上训练的基础模型（FMs）获得了关注并流行起来。基础模型的显著例子包括大型语言模型，如LLaMA、GPT-3和ChatGPT，以及突出的视觉模型，如CLIP、BLIP和SAM。这些模型的主要优势在于，它们能够利用从大量未标注数据中学习到的通用特征表示，以相对较少的标注数据点适应特定的下游任务。

开发地球观测（EO）基础模型的关键挑战之一是如何处理多传感器数据。早期的方法通常被设计为专注于单一数据源或特定范围的空间和光谱分辨率。例如，现有的预训练模型如GFM、Scale-MAE和Cross-scale-MAE主要是为光学数据预训练的。FG-MAE和SatMAE是为多光谱Sentinel-2数据开发的，而SSL4EO-L则是为Landsat的图像数据设计的。CROMA设计了两个单模态编码器来编码多光谱和合成孔径雷达（SAR）数据。它利用了一个跨模态雷达-光学转换器来学习统一的深度表示。DeCUR是一个双模态自监督模型，用于解耦两种不同模态之间独特和共同的表示。SpectralGPT是一个针对多光谱遥感数据定制的基础模型。此外，Satlas包含来自各种传感器的大规模数据集，并为每个传感器提供了单独的预训练模型。

当前处理地球观测数据的FMs往往无法充分利用所有可用的信息，因为它们往往只专注于单一传感器模态，或者为每种类型的传感器数据使用不同的视觉编码器。虽然这种策略可行，但它并没有充分利用多模态数据提供的互补信息的最佳融合所带来的巨大潜力。此外，这些现有方法的一个关键局限性是它们在适应不同下游任务时缺乏灵活性，这偏离了设计FMs的初衷。在这方面，无论是开发单独的基础模型，还是使用单独的视觉编码器提取多传感器特征，都无法考虑这种传感器间的关系，从而导致以下局限性：

• 学习到的多模态表示可能无法有效捕捉传感器间的关系。
• 当下游任务需要使用具有不同光谱带数量、空间分辨率或不同波长范围的未见传感器数据时，基础模型的性能会下降。
• 开发单独的、定制化的基础模型需要更多的计算资源和人力投入。
• 随着专门化基础模型数量的增加，为特定下游任务选择最合适的模型变得更加困难。

本文的目标是解决这些局限性，并开发出能够自适应处理这一广泛地球观测（EO）数据的多功能特征模型（FMs），如图1a所示。具体而言，本文提议构建一个自适应基础模型，以克服为每种数据类型使用单独视觉编码器所带来的低效和复杂性。为此，本文从神经科学中的神经可塑性概念中汲取灵感。神经可塑性体现了大脑根据不同刺激、经验和环境变化重新组织和适应其神经连接的动态能力。如图1b（1）所示，轴突发芽和突触重塑是神经可塑性的两种不同类型。它是大脑适应新经验或环境变化的重要机制。受这一概念启发，本文提出了一个“动态全能模型”（Dynamic One-For-All model，简称DOFA），旨在模拟处理多模态EO数据的动态机制。如图1b（2）所示，DOFA被设计为能够响应新的数据模态而自适应地改变其网络权重。

DOFA采用了一种创新方法，利用波长作为跨各种EO模态的统一参数，以实现更连贯的多模态表示。其核心在于，该模型集成了一个超网络，该超网络根据每个光谱带的中心波长动态生成网络权重。这种动态权重生成器调整网络权重以与输入数据的特定模态对齐，从而为每种模态定制网络。此外，DOFA还集成了一个共享视觉主干，作为所有异构数据模态的通用特征学习模块。这一框架增强了模型跨不同模态学习共享表示的能力。DOFA采用掩码图像建模策略进行训练，包括一个蒸馏损失以进一步优化其性能。该策略有助于模型更快收敛，减少计算成本，并通过利用在ImageNet数据集上预训练模型的强大表示来增强模型性能。

在评估阶段，本文在各种现实任务上对DOFA进行了全面测试，结果表明，在大多数下游（14个中的13个）数据集中，它超越了当前领先的基础模型。这种使用单一网络进行相同预训练所取得的性能，凸显了DOFA在处理多模态EO数据方面的优越性。DOFA模仿了人类大脑从各种数据源中持续学习的动态过程，使其对遥感领域广泛的数据谱系具有高度适应性。实验结果展示了DOFA的多功能性和有效性，并证实了DOFA是分析复杂遥感数据的一种新型基础模型。尽管DOFA是为分析EO数据而提出的，但其方法也可以广泛应用于其他以多模态数据为主流的领域，如医学图像分析、机器人技术和气候建模。

DOFA framework

DOFA是一种基础模型架构，它建立在掩码图像建模原则的基础上，通过处理具有任意数量通道的输入图像实现了重大进展。这得益于设计的基于超网络的动态权重生成器，它能够适应每个通道的光谱波长。通过将具有不同通道数量的图像嵌入到统一的特征空间中，该模型利用共享的Transformer网络来学习模态共享表示。这种架构使模型能够学习多功能的多模态表示，并在单个框架内处理多样化的数据模态。

综上所述，DOFA由四部分组成：1）波长条件动态块嵌入；2）使用共享Transformer网络进行多模态预训练；3）具有可变光谱带数量的掩码图像建模；4）基于蒸馏的多模态持续学习。下面将分别描述这些部分。总体架构的示意图和更多模型细节见方法部分。

波长条件动态块嵌入。

本文提出利用波长作为跨各种地球观测（EO）模态的统一参数，以实现统一的多模态表示。具体而言，本文使用波长条件动态块嵌入层Fdpe将数据投影到相同的特征维度上。给定一个C通道图像的波长λ ∈ R^C，超网络Fdpe以λ作为输入，并输出权重Mw和偏置Mb。这可以表示为(Mw,Mb) = Fdpe(λ)。然后，生成的Mw和Mb可以用作动态块嵌入层的参数。

使用共享Transformer网络进行多模态预训练。

DOFA旨在采用统一的网络架构来学习跨不同数据模态的深层表示。为此，DOFA利用了一个共享的视觉Transformer主干，它作为所有异构数据类型的通用特征学习模块。这种方法迫使模型识别和学习跨不同模态的共同特征，从而促进了更加通用和鲁棒的表示学习。

具有任意数量光谱带的掩码图像建模。

DOFA基于掩码图像建模策略进行训练，利用掩码自编码器架构来重建具有不同数量光谱带的输入数据。为此，本文设计了一个波长条件动态解码器层。该层与波长条件动态块嵌入层协同工作，共享类似的计算过程。通过集成这些动态层，DOFA可以对具有任意数量光谱带的输入数据进行掩码重建任务，从而能够在不同的成像模态之间进行训练。

基于蒸馏的多模态持续预训练。

在多个数据模态的大规模数据集上进行预训练会产生巨大的计算成本。为了最小化碳足迹的预训练，本文提出了一种蒸馏损失策略，以在各种数据模态上优化DOFA。这种方法通过利用在ImageNet数据集上预训练的模型表示，实现了有效的知识迁移，并减少了训练大规模模型对环境的影响。

Method

Mathematical formalism

给定一个输入图像X ∈ R^C×H×W，其中H、W和C分别代表图像的高度、宽度和通道数，该图像首先被分割成一个块序列。每个块具有固定的空间大小P × P和C个通道，因此图像被转换为N = HW/P^2个块。每个块被展平成一个向量，并通过线性变换转换为D维嵌入。这个变换由一个可训练的嵌入矩阵E ∈ R^(P^2C×D)表示。形式上，块嵌入可以描述为：

这里X_pi是第i个块的展平向量。接下来，使用可学习的嵌入矩阵将这些展平向量线性投影到D维嵌入中：

其中Z_0表示块嵌入的序列。注意，这个过程可以通过使用一个具有P × P核、C个输入通道和D个输出通道的卷积层来实现。此外，还向序列中添加了一个额外的可学习嵌入，即类别标记X_cls。最后，添加位置嵌入以保留位置信息。

这里，E_pos表示位置嵌入，而得到的Z'作为ViT架构后续层的输入。

Architecture overview

块嵌入层将输入图像转换为一系列嵌入，这些嵌入可以被Transformer的自注意力机制处理。处理来自不同模态的输入数据的一个直接方法是使用多个块嵌入层，将具有不同光谱波长的数据转换为具有相同维度42的嵌入。

假设维度为R^C×H×W的输入图像X可以来自各种数据模态。最初，来自不同源的图像被标准化为高度H和宽度W。

具体而言，本文考虑了五种不同的模态：具有两个合成孔径雷达（SAR）通道的Sentinel 1数据（X_s1，R^2×H×W），具有九个多光谱通道的Sentinel 2数据（X_s2，R^9×H×W），具有四个多光谱通道的高分数据（X_g，R^4×H×W），具有三个RGB通道的NAIP图像（X_rgb，R3^×H×W），以及具有202个可用高光谱通道的EnMAP数据（X_e，R^202×H×W）。

为了简化表示，本文在张量表示中省略了批次大小。OFA-Net提出了一种简单直接的方法，即为每种数据模态使用单独的块嵌入层。然而，虽然这种方法在实际中可行，但当下游任务的光谱带数量发生变化时，它并不够灵活。

受大脑神经可塑性的启发，本文提出了一种动态架构，以灵活地将模型适应于不同的模态，并处理光谱带数量的变化，如图4a所示。

整个架构遵循掩码图像建模（MIM）的设计。与传统掩码自编码器（MAE）的主要区别在于，DOFA能够处理具有不同通道数的输入图像。这种灵活性是通过基于超网络的动态权重生成器实现的，它是模型设计的关键组成部分。动态权重生成器从与每个图像通道相关联的光谱波长接收输入，并动态地预测不同数据模态的块嵌入矩阵E，以学习每种模态的特定表示。然后，这些潜在表示通过一系列共享的Transformer块传递，以学习可泛化的多模态表示。这些块应用自注意力机制来捕获不同图像部分之间的复杂交互。

与网络中编码器部分的动态权重生成并行，动态解码器负责从编码的潜在空间中重建输出图像。类似地，动态解码器使用另一组动态生成的权重来确保重建的图像与目标模态的光谱带数量相匹配。

本文采用MIM策略来训练这种自监督架构。输入图像被随机掩码，模型学习重建这些缺失部分。由于DOFA中的参数是在不同模态之间学习的，因此该过程有助于模型学习对各种地球观测（EO）任务有益的鲁棒多模态表示。

在预训练过程之后，模型可以针对特定的下游任务进行微调，通过较少的可学习参数和训练成本来定制模型以适应特定的EO应用，而无需进行广泛的重新训练。通过将动态权重生成和解码集成在一起，该模型可以转移到从高分辨率光学成像到多光谱和高光谱传感的各种EO应用中。

Results

在本节中，本文介绍了DOFA框架的核心概念。然后，本文展示了DOFA如何利用相同的预训练权重，在不同数据模态的多种地球观测（EO）下游任务中展现出强大的泛化能力。本文通过三种实验设置评估了DOFA的性能：在六个分类数据集上进行线性探测、在六个分割数据集上进行部分微调，以及在两个下游数据集上进行完全微调（补充材料E）。这些数据集涵盖了关键的地球观测应用，包括图像级分类和像素级语义分割任务。通常，现有的FMs受到网络架构约束的限制，只能处理固定数量的输入通道。相比之下，受神经可塑性启发的DOFA设计能够适应各种数据模态，包括以前未见过的数据模态。除了其适应性之外，DOFA在性能上始终优于为特定模态量身定制的专业化FMs。DOFA在这些不同数据集上的卓越表现凸显了其有效性、多功能性和对新传感器的泛化能力。