有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容

本文主要是介绍有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

写在前面

任何事件都会承载一定的信息，事件发生的概率越大，其含有的信息量越少，事件发生的概率越小，其含有的信息量越多。比如昨天下雨了，是一个既定的事实，所以其信息量为0，天气预报说明天会下雨，是一个概率事件，其信息量相对较大。
假设 $X$ 是一个离散型随机变量， $p(X=x_0)$ 表示随机变量取值为 $x_0$ 的概率，那么 $X=x_0$ 的信息量的计算公式：
$I(x_0) = -\log(p(x_0))$

熵描述的是随机变量不确定性的程度。
假设随机变量 $X$ 有 $n$ 个取值， $X$ 取值为 $x_i$ 时的概率为 $p(x_i)$ ，计算公式为：
$-\sum_{i=0}^{n}p(x_i)\log(p(x_i))$

对 $K L$ 散度公式变形：
$D_{KL}(p||q) = \sum_{i=0}^np(x_i)\log(p(x_i)) - \sum_{i=0}^np(x_i)\log(q(x_i))$
上面等式中的 $\sum_{i=0}^np(x_i)\log(q(x_i))$ 就是交叉熵 $H (p, q)$
而 $P$ 的熵为：
$-\sum_{i=0}^np(x_i)\log(p(x_i))$
如果真实分布 $P$ 不变，那么 $H (p)$ 就是一个常数，所以在训练模型时，我们只需要关注交叉熵，最小化交叉熵的值。
$\sum_{i=0}^np(x_i)\log(q(x_i))$

JS散度描述的是两个分布的相似程度。
对于概率分布 $P$ 和 $Q$ ，js散度的计算公式如下：
$\frac{1}{2}D_{KL}(P||M) + \frac{1}{2}D_{KL}(Q||M)$
其中 $M$ 是 $P$ 和 $Q$ 的平均分布。平均分布的计算过程如下：
- 对于同一个事件 $i$ ，假设事件 $i$ 在 $P$ 中发生的概率为 $P (i)$ ，在 $Q$ 中发生的概率为 $Q (i)$ ，那么事件 $i$ 在 $M$ 中发生的概率为：
  $\frac{P(i) + Q(i)}{2}$
- 注意：当两个分布不存在重叠部分时，计算它们的平均分布没有意义，因为事件 $i$ 在 $P$ 中发生，在 $Q$ 中却不发生。这里说的重叠是指 $P$ 和 $Q$ 的支撑集不相交，简单来说，就是 $P$ 和 $Q$ 的随机变量的取值集合没有交集。
如果 $P$ 和 $Q$ 的分布不重叠，那么计算得到的JS散度是一个常数。（个人解释如下，不完全正确，仅供参考）
- 如果 $P$ 和 $Q$ 的分布不重叠，根据KL散度的定义可知，在计算KL散度时，会基于参考分布的随机变量来计算，那么由此计算得到的 $M$ 会是相应分布的 $\frac{1}{2}$ 。进而 $D_{KL}(P||M) = \sum_{i=0}^{n}P(x_i)\log(\frac{P(x_i)}{\frac{1}{2}P(x_i)}) = \sum_{i=0}^{n}P(x_i)\log(2) = \log(2) \sum_{i=0}^np(x_i) = \log2$ ，同样可以计算 $D_{KL}(Q||M) = \log2$ ，所以 $\log2$ ，所以计算得到的JS散度是一个常数。

当两个分布不重叠时，计算 $K L$ 散度是无意义的，因为在 $P$ 中出现的事件 $i$ ，在 $Q$ 中不会出现，即 $q(x_i) = 0$ ，而在计算 $K L$ 散度的公式中， $D_{KL}(p||q) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)})$ ， $q(x_i)$ 是分母，所以此时 $K L$ 散度无意义。
Wasserstein距离用于描述两个分布之间的距离。
分布 $P$ 和 $Q$ 的Wasserstein距离定义如下：
$inf_{\gamma \sim \Gamma(P, Q) } E_{(X, Y) \sim \gamma}(||X-Y||)$
- 其中 $\Gamma(P, Q)$ 表示 $P$ 和 $Q$ 所有可能的联合分布集合， $\gamma$ 表示所有可能联邦分布中的一个， $Y)\sim \gamma$ 表示从联合分布中随机采样一个样本 $(X, Y)$ ， $∣∣ X - Y ∣∣$ 表示计算样本 $(X, Y)$ 的距离， $E_{(X, Y)\sim \gamma}(||X-Y||)$ 表示在联合分布为 $\gamma$ 时，样本距离的期望值。整个式子也就是找到一个可能的联合分布 $\gamma$ ，使得这个期望值最小。
- 如果把分布 $P$ 和 $Q$ 看成是土堆 $A$ 和土堆 $B$ ，那么Wassersteion距离就是将土堆 $A$ ，推到土堆 $B$ 的最少运算成本，也就是将一个分布变换为另一个分布的最小成本。