【机器学习基础】概率分布之指数族分布

本文主要是介绍【机器学习基础】概率分布之指数族分布，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本系列为《模式识别与机器学习》的读书笔记。

一，指数族分布

1，指数族分布基本概念

参数为 $\boldsymbol{\eta}$ 的变量 $\boldsymbol{x}$ 的指数族分布定义为具有下⾯形式的概率分布的集合：
$p(\boldsymbol{x|\eta}) = h(\boldsymbol{x})g(\boldsymbol{\eta})\exp \{\boldsymbol{\eta}^{T}\boldsymbol{\mu}(\boldsymbol{x})\}\tag{2.106}$
其中 $\boldsymbol{x}$ 可能是标量或者向量，可能是离散的或者是连续的。这⾥ $\boldsymbol{\eta}$ 被称为概率分布的 ⾃然参数 （natural parameters）， $\boldsymbol{\mu}(\boldsymbol{x})$ 是 $\boldsymbol{x}$ 的某个函数。函数 $g(\boldsymbol{\eta})$ 可以被看成系数，它确保了概率分布是归⼀化的，因此满⾜：
$g(\boldsymbol{\eta})\int h(\boldsymbol{x})\exp \{\boldsymbol{\eta}^{T}\boldsymbol{\mu}(\boldsymbol{x})\}\mathrm{d}\boldsymbol{x}=1\tag{2.107}$
如果 $\boldsymbol{x}$ 是离散变量，那么上式中的积分就要替换为求和。

考虑伯努利分布：
$p(x|\mu) = \text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.108}$

变形，有：

$\begin{aligned} p(x|\mu) &= \exp \{x\ln \mu +(1-x) \ln (1-\mu)\} \\ &= (1-\mu)\exp \left\{\ln \left(\frac{\mu}{1-\mu}\right)x\right\}\end{aligned}\tag{2.109}$

对比公式(2.106)，可得：
$\eta = \ln \left(\frac{\mu}{1-\mu}\right)$

从而，有：
$\begin{aligned}\mu &= \sigma(\eta) \\ &= \frac{1}{1+\exp(-\eta)}\end{aligned}\tag{2.110}$

被称为 logistic sigmoid函数。
因此，伯努利分布的指数族分布标准形式：
$p(x|\mu) = \sigma(-\eta)\exp(\eta x)\tag{2.111}$
其中，
$\mu(x) = x \\ h(x) = 1 \\ g(\eta)=\sigma(-\eta)$

考虑单⼀观测 $\boldsymbol{x}$ 的多项式分布，形式为：
$p(\boldsymbol{x|\mu}) = \prod_{k=1}^{K}\mu_{k}^{x_{k}} = \exp\left\{\sum_{k=1}^K x_{k}\ln \mu_{k}\right\}\tag{2.112}$

其中 $\boldsymbol{x} = (\boldsymbol{x}_1,\dots ,\boldsymbol{x}_M)^T$ 。把它写成公式(2.106)的标准形式，即：
$p(\boldsymbol{x|\mu}) = \exp(\boldsymbol{\eta}^{T}\boldsymbol{x})\tag{2.113}$

其中， $\eta_{k} = \ln \mu_{k}$ ， $\boldsymbol{\eta}=(\eta_1,\dots,\eta_{M})^T$ ，并且
$\boldsymbol{\mu}(\boldsymbol{x}) = \boldsymbol{x} \\ h(\boldsymbol{x}) = 1 \\ g(\boldsymbol{\eta}) = 1 \\ \sum_{k=1}^{K} \mu_{k}=1$

考虑只⽤ $M - 1$ 个参数来表⽰这个分布，把 $\mu_M$ ⽤剩余的 $\{\mu_k\}$ 表⽰，其中 $\dots , M−1$ ，这样就只剩下了 $M - 1$ 个参数，公式(2.112)变为：
$\begin{aligned}p(\boldsymbol{x|\mu}) &= \exp\left\{\sum_{k=1}^K x_{k}\ln \mu_{k}\right\} \\ &= \exp \left\{\sum_{k=1}^{M-1}x_{k}\ln\left(\frac{\mu_{k}}{1-\sum_{j=1}^{M-1}\mu_{j}}\right) + \ln \left(1-\sum_{k=1}^{M-1}\mu_{k}\right)\right\} \end{aligned}\tag{2.114}$