Domain Separation Networks-论文笔记

本文主要是介绍Domain Separation Networks-论文笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

目的：what to transfer，以及如何有效避免negative transfer上。

假设：所有的域之间有着公有的特征(Shared)和私有的特征(Private)，如果将各个域的私有特征也进行迁移的话就会造成负迁移(negative transfer)。

基于此，提出了Domain Separation Networks(DSNs)。

Domain Separation Networks (DSNs)

在这里插入图片描述

网络结构包含：

Shared Encoder $E_{c}(x)$ : 提取共有特征，使得不同域之间迁移。
Private Source Encoder $E_{p}^{s}(x^{s})$ : 源域私有编码器，用于提取源域数据私有特征。
Private Target Encoder $E_{p}^{t}(x^{t})$ : 目标域私有编码器，用来提取目标域的私有特征。
Shared Decoder: 共享的解码器，输入时私有特征和共有特征，用于重构图像。
源域分类器 $G\left(E_{c}\left(x^{s}\right)\right)$ : 源域数据的分类器，输入是公有特征。训练完成之后，可以用来对目标域数据上分类。

其中， $x^s, x^t$ 分别表示源域和目标域输入，通过公有和私有编码器之后，分别输出 $h_p^s, h_c^s$ 、对应源域私有特征和共有特征， $h_p^t, h_c^t$ ，对应目标域特征。

Loss

difference loss

为什么 $E_p^t(x), E_p^s(x)$ 就能输出私有特征呢？

作者损失函数层面进行了限制，定义差异损失：
$\mathcal{L}_{\text {difference }}=\left\|\mathbf{H}_{c}^{s \top} \mathbf{H}_{p}^{s}\right\|_{F}^{2}+\left\|\mathbf{H}_{c}^{t^{\top}} \mathbf{H}_{p}^{t}\right\|_{F}^{2}$
$\|\cdot\|_{F}^{2}$ 表示矩阵范式，而中间是 $\mathbf{H}_{c}^{\mathbf{s} \top} \mathbf{H}_{p}^{s}$ ,只有两个矩阵正交，范式才为0，所以这个损失鼓励私有特征和共有特征不相似，正交的时候最小。

Similarity loss

为什么 $E_c(x)$ 就能输出共有特征?

为了保证源域和目标域是可迁移的，就要保证 $h_c^t, h_c^s$ 的分布相似性。

注意是 $h_c^t, h_c^s$ 的分布相似性，非向量相似性，因为本来就是不同输入，不能适得其输出相似。

作者用到了Gradient Reversal Layer (GRL)：

简单讲就是找到一个函数Q(f(u))，使得梯度取反：
$\frac{d}{d \mathbf{u}} Q(f(\mathbf{u}))=-\frac{d}{d \mathbf{u}} f(\mathbf{u})$

损失函数：
$\mathcal{L}_{\text {similarity }}^{\mathrm{DANN}}=\sum_{i=0}^{N_{s}+N_{t}}\left\{d_{i} \log \hat{d}_{i}+\left(1-d_{i}\right) \log \left(1-\hat{d}_{i}\right)\right\}$
使用了对抗学习的思想，通过一个域分类器 $Z\left(Q\left(\mathbf{h}_{c}\right) ; \boldsymbol{\theta}_{z}\right), \mathbf{h}_{c}=E_{c}\left(\mathbf{x} ; \boldsymbol{\theta}_{c}\right)$ ，来区分 $h_c^t, h_c^s$ 是属于源域还是目标域。对于分类器的参数 $\theta_z$ 通过梯度求导来最小化分类损失，让分类器分的更准。而通过加入Q，来使用GRL，使得在优化 $\theta_c$ 的时候让分类器无法分辨输入属于source还是target。

Reconstruction loss

怎么保证 $h_{p}^{s}, h_{p}^{t}, h_{c}^{s},h_{c}^{t}$ 都是有意义的呢？例如 $h_{p}^{s}=0, \quad h_{p}^{t}=0, \quad h_{c}^{s}=h_{c}^{t}=1$ 的时候，上述损失就可以达到0.

所以作者引入了重构损失。
$\mathcal{L}_{\text {recon }}=\sum_{i=1}^{N_{s}} \mathcal{L}_{\text {si }_{-} \text {mse }}\left(\mathrm{x}_{i}^{s}, \hat{\mathrm{x}}_{i}^{s}\right)+\sum_{i=1}^{N_{t}} \mathcal{L}_{\mathrm{si}_{-} \text {mse }}\left(\mathrm{x}_{i}^{t}, \hat{\mathrm{x}}_{i}^{t}\right) \tag{3} \\ \mathcal{L}_{\mathrm{si}_{-} \mathrm{mse}}(\mathrm{x}, \hat{\mathrm{x}})=\frac{1}{k}\|\mathrm{x}-\hat{\mathrm{x}}\|_{2}^{2}-\frac{1}{k^{2}}\left([\mathrm{x}-\hat{\mathrm{x}}] \cdot 1_{k}\right)^{2}$
其中k为输入x的像素个数，1k为长度为k的向量; $\|\cdot\|_{2}^{2}$ 是向量的平方模。

虽然均值平方误差损失传统上用于重建任务，但它会惩罚在缩放项下正确的预测。相反，尺度不变的均方误差抵消了像素对之间的差异。这允许模型学习复制被建模对象的整体形状，而不需要在输入的绝对颜色或强度上花费建模能力。

在实验中，作者用传统的均方误差损失代替式3中的尺度不变损失，验证了这种重构损失确实是正确的选择。

task loss

最后是分类器 $G\left(E_{c}\left(x^{s}\right)\right)$ 的分类损失：
$\mathcal{L}_{\mathrm{task}}=-\sum_{i=0}^{N_{s}} \mathbf{y}_{i}^{s} \cdot \log \hat{\mathbf{y}}_{i}^{s}$
注意分类器的输入是共有特征，因此保证对于目标域，能够直接迁移过来，使用此分类器做分类任务。