先验概率、最大释然估计(MLE)与最大后验估计(MAP)

本文主要是介绍先验概率、最大释然估计(MLE)与最大后验估计(MAP)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

在数据分析和机器学习中，估计是一个很重要的内容，这里着重介绍下极大似然估计与极大后验估计。

最大似然估计(MLE)

    最大似然估计是模型已定，参数未定时的一种估计方法。比如说对于抛硬币而言，模型已定，可以看做是多个伯努利实验，我们所不知道的是这个硬币正面朝上的概率 $p$ ，所以我们的任务就是估计 $p$ 的值。极大似然估计的思想是，对于已经给定的一些观测数据，参数 $p$ 的取值应使得取得这些观测数据的概率最大。
    再以上面抛硬币为例，假设10次实验，7次正面朝上，此时根据极大似然估计 $p$ 的取值应该为 $7 \over 10$ ，具体计算过程一会给出。
    OK，这里总结出极大似然估计的一般过程。首先极大似然估计的前提是样本的采样是独立同分布的，假设现在得到的采样结果是 $x_1$ , $x_2$ , $x_3$ , $x_4$ , $x_5$ ……，给定参数 $\theta$ ，则取得该采样结果的联合概率为：

f (x 1, x 2, x 3, \dots ， x n; θ) = f (x 1; θ) \times f (x 2; θ) \times \dots \times f (x n; θ)

$f(x_1,x_2,x_3,…，x_n;\theta)=f(x_1;\theta)\times f(x_2;\theta)\times …\times f(x_n;\theta)$

L (θ | x 1, x 2, \dots, x n) = \prod i = 1 n f (x i | θ)

$L(\theta | x_1,x_2,…,x_n)=\prod_{i=1}^n f(x_i | \theta)$
为了求得

θ $\theta$ 的值使得

L(θ|x1,x2,…,xn) $L(\theta | x_1,x_2,…,x_n)$ 取得极大值，而连乘形式通常很难求值，因此一般情况下会把连乘转化成连加，即会求

L $L$ 的对数，如下所示：

l n L (θ | x 1, x 2, \dots, x n) = \sum i = 1 n l n f (x i | θ)

$lnL(\theta | x_1,x_2,…,x_n)=\sum_{i=1}^n lnf(x_i|\theta)$
此时

xi $x_i$ 是已知量，只有参数

θ $\theta$ 是未知量，因此对

θ $\theta$ 求导。

d l n L ( θ ) d θ = 0

${dlnL(\theta) \over d\theta} = 0$
求出

θ $\theta$ 的值即可。

特殊情况下， $L(\theta)$ 是一个递增函数或者其它比较简单的形式，我们无需进行求对数，只需直接判断即可。

现在对开头的抛硬币例子进行解释，我们可以判定每次抛硬币正面朝上的概率为 $f(x = 1|p) = p^x \times (1-p)^{(1-x)}$ ，则10次实验做完联合概率为
$L(x_1,x_2,…，x_{10} | p) = p^{x_1}*p^{x_2}*…p^{x_{10}} *(1-p)^{(1-x_1)}*…(1-p)^{(1-x_{10})} = \prod_{i=1}^{10} p^{x_i} \times (1-p)^{(1-x_i)}$
对其进行求对数

l n L (x 1, x 2, \dots ， x 10 | p) = 7 * l n p + ３ * l n (1 - p)

$lnL(x_1,x_2,…，x_{10} | p)= 7 * lnp +３*ln(1-p)$
再对

p $p$ 进行求导：

d l n L ( θ ) d p = 7 p - 3 ( 1 - p ) = 0

${dlnL(\theta) \over d p} = {7 \over p} - {3 \over (1-p)}=0$
求解得到

p=710 $p={7 \over 10}$

最大后验估计(MAP)

最大后验估计与最大似然估计是类似的，只是这里加入了先验概率，我们在计算上述的抛硬币的试验时，并没有考虑硬币本身的因素，即 $p$ 可能也是符合一个分布的。根据贝叶斯理论：

p (θ | X) = p ( X | θ ) \times p ( θ ) \sum θ i p ( X | θ i ) \times p ( θ i )

$p(\theta | X) = {p(X | \theta) \times p(\theta) \over \sum_{\theta_i} p(X| \theta_i) \times p(\theta_i)}$
这里的

p(θ) $p(\theta)$ 是参数

θ $\theta$ 的先验概率，

p(θ|X) $p(\theta | X)$ 是后验概率，而

p(X|θ) $p(X|\theta)$ 就是我们上面提到的似然函数。在最大似然估计中，我们并没有考虑

p(θ) $p(\theta)$ ，即我们假设

p $p$ 是一个固定值，但实际上，参数

p $p$ 可能并不是固定的，它只是取某些值可能性比较大。因此我们只要将似然函数乘以先验概率然后取最大即可。
仍以上面抛硬币来举例，这里以

Beta $Beta$ 分布来估计参数

p $p$ 的值，

Beta $Beta$ 分布是一个使用率非常高的分布，它根据

α $\alpha$ 和

β $\beta$ 的值可以使

Beta(α,β) $Beta(\alpha, \beta)$ 取不同的值，如下图所示。
这里写图片描述

所以根据先验概率的要求，我们要求

p(p|α,β) $p(p|\alpha, \beta)$ ,即：

p (p | α, β) = 1 B ( α , β ) p α - 1 (1 - p) β - 1

$p(p|\alpha,\beta) = {1 \over B(\alpha,\beta)}p^{\alpha-1}(1-p)^{\beta-1}$

B (α, β) = Γ ( α ) Γ ( β ) Γ ( α + β )

$B(\alpha,\beta) = {{\Gamma(\alpha)\Gamma(\beta)}\over \Gamma(\alpha+\beta)}$
根据图中的概率分布，我们假设这个硬币是均匀的，这里取

α=β=4 ${\alpha=\beta=4}$ ,通过这个假设来给我们最大似然估计求出的结果进行修正。

θ^m a p = l n ((\prod i = 1 10 p x i (1 - p) (1 - x i)) \times 1 B ( 4 , 4 ) p 3 (1 - p) 3)

$\hat \theta_{map} =ln((\prod_{i=1}^{10} p^{x_i}(1-p)^{(1-x_i)})\times {1 \over B(4,4)}p^{3}(1-p)^{3})$

d θ ^ m a p d p = 7 p - 3 1 - p + 3 p - 3 1 - p = 0

${d\hat \theta_{map} \over dp} = {7 \over p}-{3 \over 1-p} + {3 \over p}-{3 \over 1-p} =0$

p = 0.5

$p=0.5$
这里比较凑巧，

p=0.5 $p=0.5$ ，与我们的假设是比较相似的，准确度相比较最大似然估计似乎有一定提高。

参考

http://blog.csdn.net/yangliuy/article/details/8296481
http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

这篇关于先验概率、最大释然估计(MLE)与最大后验估计(MAP)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

先验概率、最大释然估计(MLE)与最大后验估计(MAP)

前言

最大似然估计(MLE)

最大后验估计(MAP)

参考

相关文章

Java中Map.Entry()含义及方法使用代码

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

Java使用Stream流的Lambda语法进行List转Map的操作方式

SpringBoot如何通过Map实现策略模式

C++ 各种map特点对比分析

JavaScript中的Map用法完全指南

Golang中map缩容的实现

Go语言利用泛型封装常见的Map操作

JSON字符串转成java的Map对象详细步骤

Java中List转Map的几种具体实现方式和特点