斯坦福大学机器学习——因子分析（Factor analysis）

本文主要是介绍斯坦福大学机器学习——因子分析（Factor analysis），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、问题的提出

在EM算法求解高斯混合模型一文中，我们的样本集 $x^{(i)}\in \mathbb R^{n}$ ，而样本的数量m远大于样本的维度n，因此，可以轻易的构造出高斯混合模型。

现在，我们再看下不同的情况：假如 $n\gg m$ ，或 $n\approx m$ ，我们将很难构建一个普通高斯模型，更别提高斯混合模型。这m个的数据仅仅是的子空间，如果我们用这m个数据建立高斯模型，并对利用极大似然，对期望和方差进行参数估计。可得：

$\begin{aligned}&\mu = \frac {1}{m} \underset{i=1}{\overset{m}{\sum}}x^{(i)}\\ &\Sigma=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}} (x^{(i)}-\mu) (x^{(i)}-\mu)^{T} \end{aligned}$

我们将发现协方差 $\Sigma$ 为奇异矩阵，即： $\left|\Sigma\right|=0$ ，这样的话 $\Sigma^{-1}$ 和 $\frac{1}{\left|\Sigma\right|^{\frac{1}{2}}}=\frac{1}{0}$ 也都不存在，而这两者是多元正态分布概率密度函数的必要参数。因子分析将解决上述问题：

二、对 $\Sigma$ 的约束

假如我们没有足够的数据去对参数 $\Sigma$ 进行估计，可以通过对 $\Sigma$ 加以限制来解决。例如：假设协方差矩阵 $\Sigma$ 为对角阵，那么，很容易通过极大似然估计求出其值：

$\Sigma_{jj}=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}(x_{j}^{(i)}-\mu_{j})^{2}$

这里 $\Sigma_{jj}$ 表示矩阵第j行j列的元素值。

如果对其进行进一步的约束， $\Sigma$ 不仅为对角阵，而且对角线上所有元素均相等，即 $\Sigma=\sigma^{2} I$ ，那么对其进行极大似然估计得：

$\sigma^{2}=\frac{1}{mn}\underset{j=1}{\overset{n}{\sum}}\underset{i=1}{\overset{m}{\sum}}(x_{j}^{(i)}-\mu_{j})$

如果需要通过极大似然估计，构造一个非奇异、无约束条件的协方差矩阵，需要满足 $m\ge n+1$ 。如果满足上面的两个约束条件，那么仅仅需要满足 $m\ge2$ 。但构造对角阵意味着数据集相互独立，没有关联。因此下文会从高斯分布的边缘分布和条件分布开始，引入因子分析模型，该模型使用更多的参数以描述数据间的关联，并且不需要构造一个非奇异的矩阵。

三、高斯分布的边缘分布和条件分布

假设有多维随机变量：

$x=\begin{bmatrix}x_{1}\\x_{2} \end{bmatrix}$

其中： $x_{1}\in \mathbb R^{r},x_{2}\in \mathbb R^{s},x\in \mathbb R^{r+s}$ 。

再令 $x\sim \mathcal N(\mu,\Sigma)$ ，并且：

$\mu =\begin{bmatrix}\mu_{1}\\ \mu_{2} \end{bmatrix}$ ， $\Sigma=\begin{bmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{bmatrix}$

其中： $\mu_{1}\in \mathbb R^{r},\mu_{2}\in \mathbb R^{s},\Sigma_{11}\in \mathcal R^{r\times r},\Sigma_{12}\in \mathcal R^{r\times s}$ 逆对角元素存相互对称 $\Sigma_{12}=\Sigma_{21}^{T}$ 。

根据协方差的定义，我们可以得到：

$\begin{aligned}Cov(x)&=\Sigma\\ &=\begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21}& \Sigma_{22}\end{bmatrix} \\ &=E[(x-\mu)(x-\mu)^{T}]\\ &= E\begin{bmatrix}\begin{pmatrix}x_{1}-\mu_{1}\\x_{2}-\mu_{2}\end{pmatrix}&\begin{pmatrix}x_{1}-\mu_{1}\\x_{2}-\mu_{2}\end{pmatrix}^{T} \end{bmatrix}\\&= \begin{bmatrix}(x_{1}-\mu_{1})(x_{1}-\mu_{1})^{T} &(x_{1}-\mu_{1})(x_{2}-\mu_{2})^{T}\\ (x_{2}-\mu_{2})(x_{1}-\mu_{1})^{T}&(x_{2}-\mu_{2})(x_{2}-\mu_{2})^{T} \end{bmatrix} \end{aligned}$

随机变量 $x_1$ 的边际分布为 $x_{1}\sim \mathcal N(\mu_{1},\Sigma_{11})$ ；若在 $x_2$ 给定的前提下， $x_1$ 的条件分布为 $x_{1}|x_{2}\sim\mathcal N(\mu_{1|2},\Sigma_{1|2})$ ，其中：

$\mu_{1|2}=\mu_{1}+\Sigma_{12}\Sigma_{22}^{-1}(x_{2}-\mu_{2})$

$\Sigma_{1|2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$

下面介绍因子分析模型时会用到上述性质。

四、因子分析模型（factor analysis model）

在因子分析模型中，我们首先假设一个联合分布 $(x,z)$ ，其中： $z\in\mathbb{R}^{k}$ 为隐随机变量。并且有：

$z\sim\mathcal N(0,I)$

$x|z\sim \mathcal N(\mu+\Lambda z,\Psi)$

其中： $\mu\in\mathbb R^{n}, \Lambda\in \mathbb R^{n\times k},\Psi\in\mathbb R^{n\times n}$ ，并且 $\Psi$ 为对角阵， $k<n$ 。

上述假设可以解释为：每个点 $x^{(i)}$ 都是由k维正态随机变量 $z^{(i)}$ 生成。首先， $z^{(i)}$ 通过 $\mu+\Lambda z^{(i)}$ 由k维映射到n维，然后，再将协方差为 $\Psi$ 的随机噪声加入。

其等价于：

$z\sim \mathcal N(0,I)$

$\epsilon \sim \mathcal N(0,\Psi)$

$x=\mu+\Lambda z+\epsilon$

其中， $\epsilon$ 和z相互独立。

假如随机变量z和x的联合高斯分布可以写成如下形式：

$\begin{bmatrix}z\\x\end{bmatrix}\sim\mathcal N(\mu_{zx},\Sigma)$

我们将求出其期望 $\mu_{zx}$ 和协方差 $\Sigma$ 。

由于 $z\sim \mathcal N(0,I)$ ，因此， $E[z]=\overset{\rightarrow}{0}$ 。

$\begin{aligned}E[x]&=E[\mu+\Lambda z+\epsilon]\\ &=\mu+\Lambda E[z]+E[\epsilon]\\&=\mu \end{aligned}$

那么：

$\mu_{zx}=\begin{bmatrix}0\\ \mu\end{bmatrix}$

由上文可知：

$\Sigma=\begin{bmatrix}\Sigma_{zz}&\Sigma_{zx}\\ \Sigma_{xz}&\Sigma_{xx} \end{bmatrix}$

下面对其分别求解：

$\Sigma_{zz}=Cov(z)=I$

$\begin{aligned}\Sigma_{zx}&=E[(z-E[z])(x-E[x])^{T}]\\&=E[z(\mu+\lambda z+\epsilon-\mu)]\\&=E[zz^{T}]\Lambda^{T}+E[z\epsilon^{T}]\\&=\Lambda^{T} \end{aligned}$

$\begin{aligned}\Sigma_{xx}&=E[(x-E[x])(x-E[x])^{T}]\\&=E[ (\mu+\lambda z+\epsilon-\mu)(\mu+\lambda z+\epsilon-\mu)^{T} ]\\&=E[\Lambda zz^{T}\Lambda^{T}+\epsilon z^{T}\Lambda^{T}+\Lambda z\epsilon^{T}+\epsilon\epsilon^{T}]\\&=\Lambda E[zz^{T}]\Lambda^{T}+E[\epsilon\epsilon^{T}]\\&=\Lambda\Lambda^{T}+\Psi\end{aligned}$

因此，随机变量z和x的联合高斯分布为：

$\begin{bmatrix}z\\x \end{bmatrix} \sim \mathcal N (\begin{bmatrix} 0\\ \mu\end{bmatrix},\begin{bmatrix} I&\Lambda^{T}\\ \Lambda & \Lambda\Lambda^{T}+\Psi \end{bmatrix} )$

随机变量x的边际分布为 $x\sim \mathcal N(\mu,\Lambda\Lambda^{T}+\Psi)$ ，因此，给定的训练集 $\{x^{(i)}:i=1,2,...,m\}$ ，我们就可以得出其对数的似然方程：

$\small l(\mu,\lambda,\Psi)=log\underset{i=1}{\overset{m}{\prod}}\frac{1}{(2\pi)^{n/2}\left|\lambda\Lambda^{T}+\Psi\right|}exp(-\frac{1}{2}(x^{(i)}-\mu)(\Lambda\Lambda^{T}+\Psi)^{-1}(x^{(i)}-\mu))$

为了得到最大似然估计，需要对似然方程求最大值。然而，求解该方程的最大值极其困难，因此我们可以采用EM算法对极大似然函数进行求解。

五、EM算法求解因子分析

条件概率 $\small z^{(i)}|x^{(i)};\mu,\Lambda,\Psi\sim\mathcal N(\mu_{z^{(i)}|x^{(i)}},\Sigma_{z^{(i)}|x^{(i)}})$ ，根据第二三节的结论可以推出：

$\small \mu_{z^{(i)}|x^{(i)}}=\Lambda^{T}(\Lambda\Lambda^{T}+\Psi)^{-1}(x^{(i)}-\mu)$

$\small \Sigma_{z^{(i)}|x^{(i)}}= I-\Lambda^{T}(\Lambda\Lambda^{T}+\Psi)^{-1}\Lambda$

根据EM算法的定义可知，E-step为：

$\small \begin{aligned}Q_{i}(z^{(i)})&=p(z^{(i)}|x^{(i)};\mu.\Lambda,\Psi)\\&=\frac{1}{ (2\pi)^{k/2} \left| \Sigma_{z^{(i)}|x^{(i)}} \right|^{1/2} }exp(-\frac{1}{2}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})^{T}\Sigma^{-1}_{z^{(i)}|x^{(i)}}(z^{(i)}-\mu_{z^{(i)}|x^{(i)}})) \end{aligned}$

M-step需要最大化：

$\small \begin{aligned}&\underset{i=1}{\overset{m}{\sum}}\int_{z^{(i)}}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\mu,\Lambda,\Psi)}{Q_{i}(z^{(i)})}dz^{(i)}\\=&\underset{i=1}{\overset{m}{\sum}}\int_{z^{(i)}}Q_{i}(z^{(i)})[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+log\;p(z^{(i)})-log\;Q_{i}(z^{(i)})]dz^{(i)}\\=&\underset{i=1}{\overset{m}{\sum}}E_{z^{(i)}\sim Q_{i}}[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+log\;p(z^{(i)})-log\;Q_{i}(z^{(i)})] \end{aligned}$

这里的下标 $\small z^{(i)}\sim Q_{i}$ 是指以 $\small z^{(i)}$ 为随机变量， $\small Q_{i}(z^{(i)})$ 为密度函数的期望。

我们忽略与带估计参数无关的项，实际就是求下式的最大值：

$\small \begin{aligned}&\underset{i=1}{\overset{m}{\sum}}E[log\;p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)]\\=&\underset{i=1}{\overset{m}{\sum}}E[log\;\frac{1}{(2\pi)^{n/2/}\left|\Psi\right|^{1/2}}exp(-\frac{1}{2} (x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1} (x^{(i)}-\mu-\Lambda z^{(i)}))]\\=& \underset{i=1}{\overset{m}{\sum}}E[-\frac{1}{2}log\;\left|\Psi\right|-\frac{n}{2}log(2\pi)-\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)}) ] \end{aligned}$

下面我们分别求出待估参数：

（1） $\small \Lambda$
为求出上式关于 $\small \Lambda$ 的偏导，可将上式整理，去除与 $\small \Lambda$ 无关项，可得等价式：

$\small \begin{aligned}&\nabla_{\Lambda} \underset{i=1}{\overset{m}{\sum}} -E[\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})^{T}\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)}) ]\\=& \frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\nabla_{\Lambda}E[-tr z^{(i)^{T}}\Lambda^{T}\Psi^{-1}\Lambda z^{(i)}+tr z^{(i)^{T}}\Lambda^{T}\Psi^{-1}(x^{(i)}-\mu)]\\=&\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\nabla_{\Lambda}E[-tr \Lambda^{T}\Psi^{-1}\Lambda z^{(i)}z^{(i)^{T}}+tr\Lambda^{T}\Psi^{-1}(x^{(i)}-\mu)z^{(i)^{T}}]\\= &\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}E[-\Psi^{-1}\Lambda z^{(i)}z^{(i)^{T}}+\Psi^{-1}(x^{(i)}-\mu)z^{(i)^{T}}] \end{aligned}$

上式第2行至第3行根据trAB=trBA, 第3行至第4行根据 $\small \begin{aligned}\nabla_{A}trABA^{T}C=CAB+C^{T}AB\end{aligned}$ 。
令上式为0，可得：

$\small \underset{i=1}{\overset{m}{\sum}}\Lambda E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}] = \underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu)E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}]$

解得：

$\small \Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}] ) (\underset{i=1}{\overset{m}{\sum}} E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}])^{-1}$

根据对 $\small Q_{i}(z^{(i)})$ 的定义， $\small Q_{i}(z^{(i)})$ 为 $\small \mathcal N(\mu_ {z^{(i)}|x^{(i)}} ,\Sigma_{z^{(i)}|x^{(i)}} )$ ，因此可得：

$\small E_{z^{(i)}\sim Q_{i}}[z^{(i)^{T}}]= \mu_{z^{(i)}|x^{(i)}}^{T}$

$\small E_{z^{(i)}\sim Q_{i}}[z^{(i)}z^{(i)^{T}}]= \mu_{z^{(i)}|x^{(i)}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}}$

将上述两式结果带入可得：

$\small \Lambda=(\underset{i=1}{\overset{m}{\sum}}(x^{(i)}-\mu) \mu_{z^{(i)}|x^{(i)}}^{T} ) (\underset{i=1}{\overset{m}{\sum}} \mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}} )^{-1}$

（2） $\small \mu$
将M步的公式对 $\small \mu$ 求偏导，可得：

$\small \mu=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}$

（3） $\small \Psi$

$\small $\Phi=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}x^{(i)}x^{(i)^{T}}-x^{(i)} \mu_{z^{(i)}|x^{(i)}}^{T} \Lambda^{T}-\Lambda\mu_{z^{(i)}|x^{(i)}}x^{(i)^{T}}+\Lambda(\mu_{z^{(i)}|x^{(i)}}\mu_{z^{(i)}|x^{(i)}}^{T}+\Sigma_{z^{(i)}|x^{(i)}})\Lambda^{T}$