EM算法与变分推断

2024-05-14 21:52

文章标签 算法 em 推断变分

本文主要是介绍EM算法与变分推断，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

符号说明

$x$ ：已观测变量的集合 ${x_1,x_2,x_3,...,x_N\}$ ，长度为 $N$
$z$ ：隐变量（未观测变量）
$\theta$ ：分布参数
$(x, z)$ ：完整数据
$p(x|\theta)$ ：似然函数

KL散度

KL散度用于衡量原始分布与近似分布的差异，从公式来看，其计算的是原始分布与近似分布之间的对数差的期望，公式如下
$D_{KL}(p||q)=E[\ln p(x)-\ln q(x)]=\sum_{i=1}^Np(x_i)\ln \frac{p(x_i)}{q(x_i)}=\int_x p(x_i) \ln \frac{p(x_i)}{q(x_i)}dx$
KL散度大于等于0

EM算法

EM算法原理

EM算法常用于估计参数的隐变量，它是一种迭代式的方法，其基本想法是：如果参数 $\theta$ 已知，则可以根据训练数据推断出最优隐变量 $z$ 的值（ $E$ 步）；反之，若 $z$ 已知，则可以方便地对参数 $\theta$ 做极大似然估计（ $M$ 步）
假设我们要对参数 $\theta$ 做极大似然估计，则需要最大化对数似然
$\ln p(x,z|\theta)$ ，但由于隐变量 $z$ 是未知的，因此上式无法直接求解，我们可以通过对上式计算关于 $z$ 的期望来最大化已观测数据x的边缘似然，即最大化
$\ln p(x,z|\theta)=\int_z \ln p(x,z|\theta)p(z|x,\theta)dz$
于是，EM算法的原型便是，以初始值 $\theta^0$ 为起点，对上式可迭代执行以下步骤直至收敛：
- 基于第 $t$ 步的 $\theta^t$ 推断隐变量 $z$ 的分布 $p(z|x,\theta)$
- 基于已观测变量 $x$ 和 $p(z|x,\theta)$ 对参数 $\theta$ 做极大似然估计得到 $\theta^{t+1}$
由此，我们可以得出EM算法的迭代方程
$\theta^{t+1}=\argmax_\theta\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz$

变分推断

问题背景

通常而言，机器学习中需要解决的问题是由观察到的变量 $x$ 来估计隐变量 $z$ 的分布以及参数 $\theta$ ，也就是求解 $p(z|x,\theta)$ 以及 $\theta$

用公式来表达，变量集合 $x$ 的联合分布为 $p(x|\theta)=\prod_{i=1}^N\int_zp(x_i,z|\theta)dz$
则其对应的对数似然函数就为
$\ln p(x|\theta)=\ln \prod_{i=1}^Np(x_i,z|\theta)=\sum_{i=1}^N\ln\left[\int_z p(x_i,z|\theta)dz\right]$
而概率模型中的参数估计通常以最大化对数似然函数为手段，对上式应用EM算法得到 $\theta^{t+1}=\argmax_\theta\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz$ 当 $p(z|x,\theta^t)$ 与隐变量 $z$ 的真实后验分布相等时， $\int_z \ln p(x,z|\theta^t)p(z|x,\theta^t)dz$ 近似于对数似然函数，然而，由于隐变量 $z$ 是未知的，我们很难得知它的真实分布，因此我们实际使用的 $p(z|x,\theta^t)$ 未必是隐变量 $z$ 的真实后验分布，而通常只是一个近似分布。
因此，如何推断 $z$ 的真实后验分布 $p(z|x,\theta^t)$ 成为了一个问题，此时我们便可以借助变分推断。假设我们现在要使用近似分布 $q (z)$ 去逼近真实分布 $p(z|x,\theta^t)$ ，我们可以很容易验证以下关系式
$\ln p(x|\theta)=L(q)+KL(q||p)$ 其中 $L(q)=\int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz$ ， $KL(q||p)=\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz$
证明如下，通过将对数似然函数进行变换可以得到
$\begin{aligned} \ln p(x|\theta) &= \ln p(x,z|\theta)-\ln p(z|x,\theta)\\ &= \ln \frac{p(x,z|\theta)}{q(z)}-\ln \frac{p(z|x,\theta)}{{q(z)}}\\ \end{aligned}$ 对等式两边同时乘上 $q (z)$ 可得
$\ln p(x|\theta)q(z) = \ln \frac{p(x,z|\theta)}{q(z)}q(z)-\ln \frac{p(z|x,\theta)}{{q(z)}}q(z)$ 等式两边同时对 $z$ 求积分，由于 $\ln p(x|\theta)$ 与 $z$ 无关，因此积分后仍得原式，所以有
$\begin{aligned} \ln p(x|\theta) &= \int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz-\int_z\ln \frac{p(z|x,\theta)}{{q(z)}}q(z)dz\\ &= \int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz+\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz\\ \end{aligned}$ 令 $L(q)=\int_z \ln \frac{p(x,z|\theta)}{q(z)}q(z)dz$ ， $KL(q||p)=\int_z\ln \frac{q(z)}{p(z|x,\theta)}q(z)dz$ ，则关系式得证。
观察我们所得到的关系式，假如我们假设近似分布 $q (z)$ 无限接近于 $p(z|x,\theta)$ ，那么KL散度便无限趋近于0，此时就有 $\ln p(x|\theta)\approx L(q)$ 于是，我们就将最大化对数似然的问题就转化为找到一个q(z)能最大化 $L (q)$ 的问题