最大似然估计（通俗讲解）

本文主要是介绍最大似然估计（通俗讲解），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最大似然估计

1 最大似然估计（MLE）原理
2. 例子
- 2.1 高斯分布
- 2.2 伯努利分布
3. 总结
4. 参考

1 最大似然估计（MLE）原理

我们不妨先从名字入手进行理解，最大似然估计的英文名称是 maximum likelihood estimation 即最大可能性估计
它的主要作用是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
当“模型已定，参数未知”时，通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
上面这段话参考文章补数学基础之高斯分布——极大似然估计

下面是维基百科给出的解释：

给定一个概率分布 $f_D$ ，以及一个分布参数 $\theta$ ，然后从这个分布中抽出一个具有 $n$ 个值的采样 $X_1,\cdots,X_n$ ，利用 $f_D$ 计算出其似然函数：
$L(\theta|x_1,\cdots,x_n) = f_\theta(x_1,\cdots,x_n).$
若 $D$ 是离散分布， $f_\theta$ 即是在参数为 $\theta$ 时观测到这一采样的概率；若其是连续分布， $f_\theta$ 则为 $X_1,\cdots,X_n$ 联合分布的概率密度函数在观测值处的取值。也就是只要有数据 $X_1,\cdots,X_n$ ，就能求出一个 $\theta$ 的估计。最大似然估计是找到最适合这个数据的分布 $D$ 的参数 $\theta$ （即在所有可能的 $\theta$ 取值中，寻找一个值使这个采样的“可能性”最大化）。从数学上来说，可以在 $\theta$ 的所有可能取值中寻找一个值使得似然函数取到最大值。而这个可能性最大的 $\hat{\theta}$ 值即为 $\theta$ 的最大似然估计 。由此不难看出，最大似然估计实际上是样本的函数。

我们不妨做这样一个思想实验：

设甲箱中有99个白球，1个黑球；
乙箱中有1个白球．99个黑球。
现随机取出一箱，再从抽取的一箱中随机取出一球。

这个球的颜色无非两种情况：白球或者黑球。
我们不妨直观的想象一下，倘若抽到的球是黑球，它最有可能来自于哪个箱子；倘若抽到的球是白球呢？

显然，因为黑球从乙箱抽取的概率比从甲箱抽取的概率大得多，倘若抽到的是黑球，这时我们自然更多地相信这个黑球是取自乙箱的；反之取自甲箱。

一般说来，事件A发生的概率与某一未知参数 $\theta$ 有关， $\theta$ 取值不同，则事件A发生的概率 $P(A|\theta)$ 也不同，当在一次试验中事件A发生了，则认为此时的 $\theta$ 值应是 $\theta$ 的一切可能取值中使 $P(A|\theta)$ 达到最大的那一个，极大似然估计法就是要选取这样的 $\theta$ 值作为参数 $\theta$ 的估计值，使所选取的样本在被选的总体中出现的可能性为最大。

我的理解是模型已知，参数未知，然后根据样本数据找到一个参数使得样本更加符合这个模型，那在概率分布上也就是使得样本出自于这个分布的概率最大喽。

我们不妨举下面这样一个例子：

假设从箱子里取出 5 个球，分别为黄、黄、红、黄、红，根据这个结果估计箱子黄球和红球的比例。
我们可以试着用上面的极大似然估计的思想求解，来感受一下这个思想。
我们要找一个比例，使得这个比例最大可能产生我们抽取的这个结果。
不妨设黄球比例是 $p$ ，则红球比例就是 $1 - p$ ，随机变量为 $x$ 。
很显然这是一个 $0 - 1$ 分布, 根据样本数据来估计这个比例。
易知抽出的 5 个球的概率分别是 $ p 、p 、1 - p 、p 、1 - p$
那么似然函数即为
$\cdot p \cdot (1 - p) \cdot p \cdot (1 - p) = p^3(1 - p)^2$ 显然不同的 $L (p)$ 是关于 $p$ 的函数。然后就是求导求极值了。
由于似然函数是乘积形式，不容易求导。因此利用对数似然函数进行参数估计：
$\ln L(p) = \sum_{i = 1}^5 \ln p(x_i|p)$ 其中 $ln p(x_i|p)$ 表示当黄球比例为 $p$ 时第 $i$ 个随机实验的概率。
则 $\ln L(p) = 3\ln p + 2\ln (1 - p) \\ \nabla _p \ln L(p) = \frac3p - \frac{2}{1 - p} = 0$
得 $\frac35$

有读者可能会有这样得疑问，梯度为零是函数取得极值的必要条件，这能保证该唯一驻点一定是最大值吗？？？
是的，可以，因为常用的概率分布是指数分布族，而指数分布族可以保证似然函数是凹函数，凹函数的唯一驻点必是最大值。 感兴趣的读者可以自行去了解。

2. 例子

2.1 高斯分布

假设 $D^j$ 中样本是根据正态分布 $\mathcal{N}(\mu,\Sigma)$ 采样得到的，其中参数 $\mu$ 为均值向量， $\Sigma$ 为协方差矩阵，样本数据为 $d$ 维，样本数据为 $\{x_1,\cdots,x_n\} \in R^{n \times d}$
则有似然函数 $L(\boldsymbol{\mu},\boldsymbol{\Sigma})=\prod_{i=1}^{n}p(\boldsymbol{x}_{i}|\boldsymbol{\mu},\boldsymbol{\Sigma})$
求解过程：

写出似然函数 $L(\boldsymbol{\mu},\boldsymbol{\Sigma})=\prod_{i=1}^{n}p(\boldsymbol{x}_{i}|\boldsymbol{\mu},\boldsymbol{\Sigma})$
写出对数似然函数 $\ln L(\boldsymbol{\mu},\boldsymbol{\Sigma})$
对 $\ln L(\boldsymbol{\mu},\boldsymbol{\Sigma})$ 分别关于 $\boldsymbol{\mu},\boldsymbol{\Sigma}$ 求梯度，令其为零。最后估计 $\hat{\boldsymbol{\mu}},\hat{\boldsymbol{\Sigma}}$

即 $L(\boldsymbol{\mu},\boldsymbol{\Sigma})=\left(\frac1{(2\pi)^{\frac d2}|\boldsymbol{\Sigma}|^{\frac12}}\right)^n\exp\left[-\frac12\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})\right] \\ \ln L(\boldsymbol{\mu},\boldsymbol{\Sigma})=-\frac{dn}2\mathrm{ln}2\pi -\frac n2\mathrm{ln}|\boldsymbol{\Sigma}|-\frac12\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\mu})^\intercal\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})$ 令
$\nabla_\mu\ln L(\mu,\Sigma)=\frac12\sum_{i=1}^n2\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})=\boldsymbol{0} \\ L(\boldsymbol{\mu},\boldsymbol{\Sigma})=-\frac n2(\boldsymbol{\Sigma}^{-1})^\top+\frac12\sum_{i=1}^n\boldsymbol{\Sigma}^{-\top}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-\top}=\boldsymbol{0}$ 解得
$\widehat{\boldsymbol{\mu}}=\frac1n\sum_{i=1}^n\boldsymbol{x}_i \\ \widehat{\boldsymbol{\Sigma}}=\frac1n\sum_{i=1}^n(\boldsymbol{x}_i-\widehat{\boldsymbol{\mu}})^\top(\boldsymbol{x}_i-\widehat{\boldsymbol{\mu}})$

这里涉及到一些矩阵求导：
$\frac{\partial a^T X b}{\partial X} = a b^T , \quad \frac{\partial a^T X b}{\partial X} = a b^T , \quad \frac{\partial \ln |X|}{\partial X} = \left({X^{-1}}\right)^T$

2.2 伯努利分布

假设 $D^j$ 中样本是根据 $Bernoulli(\theta)$ 分布采样得到的，即 $p(x|\theta) = \theta^x(1 - \theta)^{1 - x}，其中 x = 0 或 1，0 \le \theta \le 1。$ 用 $M L E$ 对 $\theta$ 进行估计。
求解过程：

写出似然函数 $L(\theta)=\prod_{i=1}^{n}p({x}_{i}|\theta) = \theta^{\sum_{i = 1}^n x_i} (1 - \theta)^{\sum_{i = 1}^n (1 - x_i)}$
写出对数似然函数 $\ln L(\theta) = (\sum_{i = 1}^n x_i)\ln \theta + (\sum_{i = 1}^n (1 - x_i))\ln(1 - \theta)$
对 $\ln L(\theta)$ 分别关于 $\theta$ 求导数，令其为零。

最后不难得到：
$\hat{\theta} = \frac1n \sum_{i = 1}^n x_i$

3. 总结

最大似然估计是找到最适合这个数据的分布 $D$ 的参数 $\theta$ （即在所有可能的 $\theta$ 取值中，寻找一个值使这个采样的“可能性”最大化）。从数学上来说，可以在 $\theta$ 的所有可能取值中寻找一个值使得似然函数取到最大值。而这个可能性最大的 $\hat{\theta}$ 值即为 $\theta$ 的最大似然估计 。最大似然估计实际上是样本的函数。