运动想象 (MI) 迁移学习系列 (5) : SSMT

本文主要是介绍运动想象 (MI) 迁移学习系列 (5) : SSMT，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

运动想象迁移学习系列:SSMT

0. 引言
1. 主要贡献
2. 网络结构
3. 算法
4. 补充
- 4.1 为什么设置一种新的适配器？
- 4.2 动态加权融合机制究竟是干啥的？
5. 实验结果
6. 总结
欢迎来稿

论文地址：https://link.springer.com/article/10.1007/s11517-024-03032-z
论文题目：Semi-supervised multi-source transfer learning for cross-subject EEG motor imagery classification
论文代码：无

0. 引言

脑电图（EEG）运动意象（MI）分类是指利用脑电信号对受试者的运动意象活动进行识别和分类;随着脑机接口（BCI）的发展，这项任务越来越受到关注。然而，脑电图数据的收集通常是耗时且劳动密集型的，这使得很难从新受试者那里获得足够的标记数据来训练新模型。此外，不同个体的脑电信号表现出显着差异，导致在直接对从新受试者获得的脑电信号进行分类时，在现有受试者上训练的模型的性能显着下降。因此，充分利用现有受试者的脑电数据和新目标受试者的未标记脑电数据，提高目标受试者达到的心肌梗死分类性能至关重要。本研究提出了一种半监督多源迁移（SSMT）学习模型来解决上述问题;该模型学习信息和域不变表示，以解决跨主题的 MI-EEG 分类任务。具体而言，该文提出了一种动态转移加权模式，通过整合从多源域派生的加权特征来获得最终预测。

文中主要解决方法是针对无监督的脑电数据迁移学习方案，是一个不错的角度，也提出了很有新意的算法设计！！！

1. 主要贡献

一种基于 MMD 和 CMMD 的域适应方法，用于解决单个 MI-EEG信号差异的问题，对齐每个源域和靶域之间的条件和边际分布差异。此外，伪标签被应用于目标域的未标记数据，并在整个训练过程中迭代更新。通过这种方式，条件分布信息将更新为近似真实的条件分布。
基于域间差异度量设计了一种动态权重转移模型，使每个源域能够根据其与目标域的相似性为训练过程做出贡献。因此，通过减轻与目标域显著差异的源域的不利影响，可以进一步提高分类器对目标域的预测性能。
通过一系列实验，在两个公开可用的 BCI数据集上评估了所提出的方法。结果表明，所提方法的每一项创新都有助于提高解码性能，与基线相比，解码性能更好。

2. 网络结构

在这里插入图片描述
SSMT由两个主要阶段组成。预训练阶段预训练所有可用于在特征提取任务和原始监督分类任务中训练的标记数据，以获得仅包含特征提取器和分类器的全局模型。然后，利用预训练模型对目标域的未标记数据进行伪标记;再训练阶段包括三个主要步骤。首先，域适配器旨在减少每个源域和目标域之间的差异。然后，使用伪标签信息并不断更新以优化模型。最后，最终决策由MLP分类器的转移权重融合产生。

3. 算法

符号说明：
${X_s^k, y_s^k\}_{k=1}^n$ 表示存在n个源域； $X_t$ 表示目标域，包含两个部分，分别是 $X_l$ 和 $X_u$ ; $X_l$ 和 $y_l$ 表示目标域中已知（标记）的样本； $X_u$ 表示目标域中未标记的样本，即也不知道其对应的类别。

SSMT算法步骤：

输入： ${X_s^k, y_s^k\}_{k=1}^n, X_l, y_l, X_u$

初始化权重参数 $\theta_f, \theta_c$
通过输入 ${X_s^k, y_s^k\}_{k=1}^n, X_l, y_l$ 直接训练预训练模型中的特征提取器 $G_f$ 和MLP分类器 $G_c$ , 并根据下面等式更新参数 $\theta_f, \theta_c$ $\begin{aligned} L_c= & {} -\sum _{k=1}^n \textbf{y}^k_s\cdot \log (G_c(G_f(\textbf{X}^k_s;\theta _f);\theta _c))\nonumber \\{} & {} -\textbf{y}_l\cdot \log (G_c(G_f(\textbf{X}_l;\theta _f);\theta _c)), \end{aligned}$
生成测试集的伪标签： $\begin{aligned} \hat{\textbf{y}}_u=G_c(G_f(\textbf{X}_u;\theta _f);\theta _c), \end{aligned}$ 预训练阶段结束
将 $X_l$ 和 $X_u$ 的数据合并为目标域 $X_t$ ，并连接所有域的数据（将 $X_s^k$ 和 $X_t$ 的数据进行连接）
重复
将连接的数据输入 $G_f$ 来得到所有域的特征：
$F=[G_f(X_s^1;\theta_f),...,G_f(X_s^n;\theta_f),G_f(X_t;\theta_f)]^T$
根据以下公式获取每个源域的差异损失和转移权重: $\begin{aligned} L_d^k=MMD(\mathcal {D}^k_s, \mathcal {D}_t)+CMMD(\mathcal {D}^k_s, \mathcal {D}_t). \end{aligned}$ $\begin{aligned} CMMD(\mathcal {D}^k_s, \mathcal {D}_t)= & {} \sum _{c=1}^C\Vert \frac{1}{m_c} \sum _{\textbf{x}_s^{k,i} |y^{k,i}_s=c} \phi (G_f(\textbf{x}_s^{k,i};\theta _f))\nonumber \\{} & {} -\frac{1}{\hat{n}_c+n_c}(\sum _{\textbf{x}_l^i |{y}_l^i=c} \phi (G_f(\textbf{x}_l^i;\theta _f))\nonumber \\{} & {} +\sum _{\textbf{x}_u^i |\hat{y}_u^i=c} \phi (G_f(\textbf{x}_u^i;\theta _f))\Vert , \end{aligned}$ $\begin{aligned} MMD\left( \mathcal {D}^k_s, \mathcal {D}_t\right)= & {} \Bigg \Vert \frac{1}{n^k_s} \sum _{i=1}^{n^k_s} \phi (G_f(\textbf{x}_s^{k,i};\theta _f))\nonumber \\{} & {} - \frac{1}{n_t} \sum _{i=1}^{n_t} \phi (G_f(\textbf{x}_t^i;\theta _f))\Bigg \Vert , \end{aligned}$
基于下面式子对每个域的特征进行动态加权，然后将 $F^*$ 作为 $G_c$ 的输入：

$\begin{aligned} \textbf{w}= & {} [W^1_d, \ldots , W^n_d]^{\top }\nonumber \\= & {} \left[ \frac{K^{- {L_d^1}^2}}{\sum _{k=1}^n K^{- {L_d^k}^2}}, \ldots , \frac{K^{- {L_d^n}^2}}{\sum _{k=1}^n K^{- {L_d^k}^2}}\right] ^{\top }, \end{aligned}$ $\begin{aligned} \textbf{F}^*=[{\textbf{F}^1_s}^*,\ldots ,{\textbf{F}^n_s}^*,\textbf{F}_t]^\top =[W^1_d\textbf{F}^1_s,\ldots ,W^n_d\textbf{F}^n_s,\textbf{F}_t]^\top , \end{aligned}$
根据下面等式，通过最小化 $L$ 更新参数 $\theta_f, \theta_c$

$\begin{aligned} L=L_c+\lambda L_d, \end{aligned}$

通过预测 $X_u$ 更新 $\hat{y}_u$
直到收敛
返回 $\hat{y}_u$

4. 补充

4.1 为什么设置一种新的适配器？

最近的研究表明，随着域间差异的增加，分类器对特征的可转移性显着降低，这表明直接转移提取的特征是一种不安全的策略。因此，在不考虑个体信号差异的情况下，使用所有可用数据进行预训练的模型可能会导致目标受试者分类的性能下降。为了防止传统两级流水线引起的分布过拟合问题，设计了一种域适配器来减轻单个信号差异的负面影响。

尽管经典MMD已被广泛用作分布差异度量，但现有研究表明，在处理类权重偏差（即类不平衡数据）时，MMD并不总是可靠的。调查发现类条件分布之间的差异 $P_s\left( \textbf{x}_s^{k,i} \mid y^{k,i}_s=c\right)$ 和 $P_t\left( \textbf{x}_l^i \mid y_l^i=c\right)$ 可以提供更合适的域差异量表，并导致卓越的域适应性能。什么时候 $P_s\left( \textbf{x}_s^{k,i} \mid y^{k,i}_s=c\right) =P_t\left( \textbf{x}_l^i \mid y_l^i=c\right)$ ，在源域中学习的分类器可以更安全地应用于目标域。基于这一概念，引入了条件最大均值差异（CMMD）度量，以对齐所有源域和目标域特征的类条件分布.