指数族分布和变分推断

本文主要是介绍指数族分布和变分推断，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

指数族分布

指数族分布的pdf / pmf可以表示成：

$\eta)=h(x)exp(T(x)^T \eta - A(\eta))$

其中， $、 T (x) 、 h (x)$ 只是包含 $x$ 的函数, $A(\eta)$ 是只包含 $\eta$ 的函数。 $T (x)$ 叫做sufficient statistics。 $A(\eta)$ 叫做log-normalizer。在变分推断中， $A(\eta)$ 起到很重要的作用。
$\frac{\int h(x)exp(T(x)^T\eta)dx}{exp(A(\eta))}=1\\ A(\eta)=log\int h(x)exp(T(X)^T\eta)dx$

我们学到的很多分布都是指数族分布，比如：

Normal, beta, Poisson, gamma, Bernoulli, chi-squared, geometric, exponential, categorical…

举高斯分布为例子

$\theta)=p(x|\mu, \sigma^2)=N(\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp{-\frac{(x-\mu)^2}{2\sigma^2}}$

例子：怎样把高斯分布写成指数族分布的形式，就是怎样把均值和方差这两个参数替换成 $\eta_1, \eta_2$ 。

$\begin{aligned} N(x|\mu，\sigma^2)&=(2\pi \sigma^2)^{-\frac{1}{2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})\\ &=exp(-\frac{x^2-2x\mu+\mu^2}{2\sigma^2}-\frac{1}{2}ln(2\pi\sigma^2)\\ &=exp(-\frac{1}{2\sigma^2}x^2+\frac{\mu}{\sigma^2}x-\frac{\mu^2}{2\sigma^2}-\frac{1}{2}ln({2\pi\sigma^2}))\\ &=exp(\begin{bmatrix} x \\ x^2 \end{bmatrix}^T\begin{bmatrix} \frac{\mu}{\sigma^2}\\ -\frac{1}{2\sigma^2} \end{bmatrix}-\frac{\mu^2}{2\sigma^2}-\frac{1}{2}ln(2\pi\sigma^2)) \end{aligned}$

这里，我们得到：
$\begin{aligned} T(x)=\begin{bmatrix} x \\ x^2 \end{bmatrix}\\ \eta=\begin{bmatrix} \eta_1\\ \eta_2 \end{bmatrix}=\begin{bmatrix} \frac{\mu}{\sigma^2}\\ -\frac{1}{2\sigma^2} \end{bmatrix}\\ \theta=\begin{bmatrix} \mu\\ \sigma^2 \end{bmatrix}=\begin{bmatrix} \frac{-\eta_1}{2\eta_2}\\ \frac{-1}{2\eta_2} \end{bmatrix}\\ A(\eta)=\frac{-\eta_1^2}{4\eta_2}-\frac{1}{2}ln(-2\eta_2) \end{aligned}$
所以均值和方差可以表示为：
$\eta_2=-\frac{1}{2\sigma^2}\Rightarrow \sigma^2=-\frac{1}{2\eta_2}\\ \mu=\eta_1\sigma^2=\eta_1\frac{-1}{2\eta_2}=-\frac{\eta_1}{2\eta_2}$

指数族分布有什么好处呢？

如果一个条件概率可以写成上面的形式，很多问题的求解变得简单。
比如：求解 $\underset{\theta}{argmax}[log p(X| \eta)]$ ：

$\begin{aligned} \underset{\eta}{argmax}[log p(X| \eta)]&=\underset{\eta}{argmax}[log \prod_{i=1}^{N} p(x_i| \eta)]\\ &=\underset{\eta}{argmax}\sum_{i=1}^{N}[logh(x_i)+T(x_i)^T\eta-A(\eta)]\\ &=\underset{\eta}{argmax}\sum_{i=1}^{N}T(x_i)^T\eta-NA(\eta) \end{aligned}$

令上式为 $L(\eta)$ ，则
$\frac{\partial{L(\eta)}}{\partial \eta}=\sum_{i=1}^{N}T(x_i)-NA'(\eta)=0$
即：
$A'(\eta)=\frac{\sum_{i=1}^{N}T(x_i)}{N}$

共轭：

$p(\beta | x) \propto p(x|\beta)p(\beta)$

如果似然函数和先验是共轭的，则后验和先验是同一种分布。

如果似然函数是指数族分布，理论上一定可以找到一个与之共轭的先验分布（也是指数族分布）。

一个结论： $A_l'(\beta)=E_{p(x|\beta)}[T(x)]$

证明：
$p(x|\beta)=h(x)exp(T(x)^T\beta-A_l(\beta))\\ \because \int p(x|\beta)dx=1\\ \begin{aligned} \therefore \frac{\partial \int p(x|\beta)dx}{\partial \beta}&=\frac{\partial \int h(x)exp(T(x)^T\beta-A_l(\beta))dx}{\partial \beta}=0\\ &=\int_x \frac{\partial [h(x)exp[T(x)^T\beta - A_l(\beta)]}{\partial \beta}dx\\ &=\int_x h(x)exp[T(x)^T\beta-A_l(\beta)](T(x)-A_l'(\beta))dx\\ &=\int_x h(x)exp[T(x)^T\beta-A_l(\beta)]T(x)dx-\int_x h(x)exp[T(x)^T\beta-A_l(\beta)]A_l'(\beta))dx\\ &=E_{p(x|\beta)}[T(x)]-A_l'(\beta)=0 \end{aligned}$

数据集合 $X$ ，隐变量集合 $Z$ ，参数集合 $\beta$ 。

后验概率分布：
$\begin{aligned} p(\beta,Z|X)&=p(\beta|Z,X)p(Z|X)\\ &=p(Z|\beta,X)p(\beta|X) \end{aligned}$
$p(\beta|Z,X)$ 和 $p(Z|\beta,X)$ ，这两个后验分布都是指数族分布。

同样的，对于 $p(Z|\beta, X)$ 也是如此：
$\begin{aligned} p(Z|\beta,X)&=h(Z)exp(T(Z)^T\eta(\beta,X)-A_l(\eta(\beta,X)))\\ &\approx q(Z|\phi)=h(Z)exp(T(Z)^T\phi-A_g(\phi)) \end{aligned}$
$E L O B$ 函数如下：
$L(q)=E_{q(Z,\beta)}[logp(X,Z, \beta)]-E_{q(Z,\beta)}[logq(Z,\beta)]$
现在， $E L O B$ 函数可以写成：
$L(\lambda, \phi)=E_{q(Z,\beta)}[logP(X,Z, \beta)]-E_{q(Z,\beta)}[logq(Z,\beta)]$
目标：找到一个 $\lambda$ 和 $\phi$ ，使得 $E L O B$ 函数最大化。

方法：

先固定一个参数，对另一个参数优化

具体做法：

固定 $\phi$ ，优化 $\lambda$
$\begin{aligned} L(\lambda, \phi)&=E_{q(Z,\beta)}[logp(X,Z, \beta)]-E_{q(Z,\beta)}[logq(Z,\beta)]\\ &=E_{q(Z,\beta)}[logp(\beta|X,Z)+logp(Z|X)]-E_{q(Z,\beta)}[logq(\beta)]-E_{q(Z,\beta)}[logq(Z)]\\ &=E_{q(Z,\beta)}[logp(\beta|X,Z)]-E_{q(Z,\beta)}[logq(\beta|\lambda)] \end{aligned}$
将 $p(\beta|Z,X)$ 和 $q(\beta|\lambda)$ 代入上式
$\begin{aligned} L(\lambda, \phi)&=E_{q(Z,\beta)}[logh(\beta)]+E_{q(Z,\beta)}[T(\beta)^T\eta(Z,X)]-E_{q(Z,\beta)}[A_g(\eta(X,Z))]-E_{q(Z,\beta)}[logh(\beta)]-E_{q(Z,\beta)}[(T(\beta)^T\lambda)]+E_{q(Z,\beta)}[A_g(\lambda)]\\ &=E_{q(\beta)}[T(\beta)^T]\cdot E_{q(Z)}[\eta(Z,X)]-E_{q(Z)}[A_g(\eta(X,Z))]-E_{q(\beta)}[(T(\beta)^T\lambda)]+A_g(\lambda)\\ &=A_g'(\lambda)^TE_{q(Z)}[\eta(Z,X)]-\lambda A_g'(\lambda)^T+A_g(\lambda) \end{aligned}$
上式对 $\lambda$ 求导
$\begin{aligned} \frac{\partial L(\lambda, \phi)}{\partial \lambda}&=A_g''(\lambda)^T\cdot E_{q(Z)}[\eta(Z,X)]-A_g'(\lambda)^T-\lambda A_g''(\lambda)^T+A_g'(\lambda)\\ &=A_g''(\lambda)^T(E_{q(Z)}[\eta(Z,X)]-\lambda)=0 \end{aligned}$
如果 $A_g''(\lambda)^T \neq 0$ ，则
$\lambda=E_{q(Z|\phi)}[\eta(Z,X)]$
同样
$\phi=E_{q(\beta|\lambda)}[\eta(X,\beta)]$