GMM聚类算法（公式证明分析）

本文主要是介绍GMM聚类算法（公式证明分析），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

高斯分布

$p(x|\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

d维多元高斯分布
$p(x|\mu, \sum)=\frac{1}{{2\pi}^{\frac{d}{2}}|\sum|^{\frac{1}{2}}}exp(-\frac{1}{2}\frac{(x-\mu)}{\sum(x-\mu)})$

对d维做极大似然估计：

给定数据 $D={x_1,..., x_N}$ 似然是 $p(D|\mu,\sum) = \prod_{n=1}^{N}p(x_n | \mu, \sum)$

MLE 估计：
$(\mu_{ML},\sum{ML}) = \underset{\mu, \sum}{argmax}logp(D|\mu,\sum)$ ,
$\mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n$
$(\sum ML)^2 = \frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{ML})(x_n-\mu_{ML})^T$

为什么使用高斯分布

如何p(x,y)联合分布是高斯分布，那么p(x)是高斯分布，同样p(y)也是高斯分布。

混合高斯分布

单个高斯分布只有一个mode，单个高斯分布不能模拟多个mode的数据。
使用多个高斯分布，就可以对数据进行聚类。

单峰的高斯分布作为basis 分布，多个高斯分布使用线性叠加(这种思路类似boost的想法)，即混合高斯。
$\sum_{k=1}^{K}\pi_k\mathbb{N}(x|\mu_k, \sigma^2_k)$
对 $\pi_k$ 有约束， $\sum\pi_k=1$ 。

学习混合高斯分布

Log -likehood

log似然：
$\pounds(\mu, \sum) = log p(D|\pi,\mu,\sum) = \sum_{n=1}^{N}log(\sum_{k=1}^K \pi_k\mathbb{N}({x|\mu_k,\sum _k})$

但是MLE是复杂的，对于单个高斯分布，MLE是简单的。

简单的分析:

$\frac{\partial \pounds}{\partial \mu_k} = 0$ 得到
$\sum_{n=1}^{N} = \frac{\pi_k\mathbb{N}({x_n|\mu_k,\sum _k})}{\sum_j\pi_j\mathbb{N}({x_n|\mu_k,\sum _k})}(\sum_k(x_n-\mu_k))^{-1}$

另 $\gamma (z_{nk}) = \frac{\pi_k\mathbb{N}({x_n|\mu_k,\sum _k})}{\sum_j\pi_j\mathbb{N}({x_n|\mu_k,\sum _k})}$

则 $\mu_k = \frac{1}{N_k}\sum_{n=1}^{N}\gamma (z_{nk})x_n$ ,

$N_k= \sum_{n=1}^{N}\gamma (z_{nk})$ , $N_k$ 是所有数据拟合到k分布上面的权重和。

这里的 $\mu_k$ 也是 $\frac{1}{N_k}$ 求均。

$\frac{\partial \pounds}{\partial \sum_k} = 0$ 得到

$\sum_k = \frac{1}{N_k}\sum_{n=1}^N \gamma(z_{nk})(x_n-\mu_k)(x_n - \mu_k)^T$

令 $\frac{\partial L}{\partial \pi_k} =0$

由于对 $\pi_k$ 有约束， $\sum\pi_k=1$ ，使用拉格朗日求 $\pi_k$
$\pounds(\mu, \sum)+\lambda(\sum_{k=1}^K\pi_k -1)$

$\sum_{n=1}^N \frac{\mathbb{N}({x_n|\mu_k,\sum _k})}{\sum_j\pi_j\mathbb{N}({x_n|\mu_k,\sum _k})} + \lambda=0$

$\pi_k=\frac{N_k}{N}$

综上结果

$\pi_k=\frac{N_k}{N}$
$\mu_k = \frac{1}{N_k}\sum_{n=1}^{N}\gamma (z_{nk})x_n$
$\sum_k = \frac{1}{N_k}\sum_{n=1}^N \gamma(z_{nk})(x_n-\mu_k)(x_n - \mu_k)^T$

$\gamma (z_{nk}) = \frac{\pi_k\mathbb{N}({x_n|\mu_k,\sum _k})}{\sum_j\pi_j\mathbb{N}({x_n|\mu_k,\sum _k})}$

关键是求，但是 $\gamma (z_{nk})$ 是未知的。

EM算法引入

解决上面鸡生蛋，蛋生鸡的 $\gamma (z_{nk})$ 求解。
E-step

$\gamma (z_{nk}) = \frac{\pi_k\mathbb{N}({x_n|\mu_k,\sum _k})}{\sum_j\pi_j\mathbb{N}({x_n|\mu_k,\sum _k})}$ , $\gamma$ 实际上是后验分布，假设第n个样本拟合到k分布上面 $p(z_{nk}=1 | x_n, \mu, \sum)$ 。

M-step

$\pi_k=\frac{N_k}{N}$
$\mu_k = \frac{1}{N_k}\sum_{n=1}^{N}\gamma (z_{nk})x_n$
$\sum_k = \frac{1}{N_k}\sum_{n=1}^N \gamma(z_{nk})(x_n-\mu_k)(x_n - \mu_k)^T$
不断的迭代E步和M步进行计算，这里初始点的选取会影响混合高斯聚类的结果。

理解高斯分布

对于 $\sum_{k=1}^{K}\pi_k \mathbb{N}(x|\mu_k, \sum_k)$ 引入选择变量z
$\begin{pmatrix} 0\\ 1\\ 0 \end{pmatrix}$

$\sum_{k=1}^{K}\pi_k^{z_k} \mathbb{N}(x|\mu_k, \sum_k)^{z_k}$

重新定义log-likehood
$logp(D|\Theta )=\sum_{n=1}^Nlog(\sum_{z_n}p(x_n, z_n))$

这里的 $log\sum$ 是很难求导的，所以我们使用Jensen不等式近似
$log\frac{x_1+x_2}{2} \geq \frac{logx_1 + logx_2}{2}$ 或者使用期望的表示方法 $logE_{p(x)}[x] \geq E_{p(x)}[logx]$
引入 $q(z_n)$ (在机器学习里面称为 Evidence lower bound):
$logp(D|\Theta )=\sum_{n=1}^Nlog(\sum_{z_n}q(z_n)\frac{p(x_n, z_n)}{q(z_n)}) \geq \sum_{n=1}^N\sum_{z_n}q(z_n)log(\frac{p(x_n,z_n)}{q(z_n)}) \cong \pounds(\theta , q(Z))$
q 一般意义上称为变分分布（变分的方法）。
但是lower bound 是可紧可松的，如何约定GAP
$\pounds(\theta , q(Z))=\sum_{n=1}^N\left \{\sum_{z_n}q(z_n)logp(x_n,z_n) - \sum_{z_n}q(z_n)logq(z_n)\right \}\\ = \sum_{n=1}^N \left \{ \sum_{z_n}q(z_n)log(\frac{p(x_n,z_n)}{p(x_n)}) +logp(x_n) - \sum_{z_n}q(z_n)logq(z_n) \right \}\\ =logp(D|\theta) + \sum_{n=1}^N \left \{ \sum_{z_n}q(z_n)logp(z_n|x_n) -\sum_{z_n}q(z_n)logq(z_n) \right \}\\ =logp(D|\theta) - KL(q(Z)||p(Z|D))$
上式中 $logp(D|\theta) = \sum_{n=1}^Nlogp(x_n)$

所以lower bound的GAP是一个KL散度。
$\pounds(\theta , q(Z))$ 与 $logp(D|\theta)$ 之间的GAP是KL散度，
$logp(D|\theta) - \pounds(\theta , q(Z)) = KL(q(Z)||p(Z|D))$
要使得GAP最小，则 $K L (q (Z) ∣ ∣ p (Z ∣ D)) = 0$