机器学习基础--最大似然估计

本文主要是介绍机器学习基础--最大似然估计，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

昨天作报告，讲到机器学习中的基础知识，最大似然估计，老师提了一个问题，就是为什么会写成那个样子，为什么是求argmax，无法回答，于是还是看看概率论吧

机器学习领域，最常用的参数估计准则就是最大似然估计，而且他和我们代价函数最常用的最小均方误差有直接的联系。它的主要思想就是像一位网友说的“眼见为实”。
先说说一个网上的例子，有一个黑箱子里面有100个球，只有黑白两个颜色，一个颜色90个，另一10个，现在我们从黑盒子里任意抽一个，发现是黑球，那么哪个颜色的球是90个？
我们都知道概率越大，事件越有可能发生，反过来，也就是最大似然估计的原理和思想：事件出现发生，它的概率即应该是较大的那个。那么上述例子，按照最大似然估计的思想来推导出发现黑色球有90个，白色10个。

数学表述

假设一次试验，有n个可能结果 $A_1,A_2,...A_n$ ,假如其中 $A_i$ 发生了，则认为 $A_i$ 在这n个结果中的概率最大。
最大似然估计就是一次抽样过程中，得到一组观测值 $x_1,x_2,...,x_n$ ,取 $\hat{\theta}(x_1,x_2,...,x_n)$ 为 $\theta$ 的参数估计，则有 $\theta = \hat{\theta}$ 时， $x_1,x_2,...,x_n$ 出现概率最大。

最大似然函数估计

从似然函数讲起:以离散型变量为例，连续型类似；
首先假定总体 $X$ 属于离散型，其分布律 $p(X=x) = p(x,\theta)$ ,其中 $\theta$ 是待定参数，假设 $X_1,X_2,...X_n$ 是从总体抽取的样本， $x_1,x_2,...,x_n$ 为与样本对应的观测到的样本值。 $x_i$ 出现的概率是 $p(x_i;\theta)，其中i\in(1:n)$ 由于我们在机器学习领域中，获取训练集以及测试集的时候，都是基于一个假设：独立同分布，那么， $X_1,X_2,...X_n$ 的联合分布可以表示为：

\prod i = 1 n p (x i, θ)

$\prod\limits_{i=1}^np(x_i,\theta)$ 那么我们可以推导出：

x1,,x2,...,xn $x_1,,x_2,...,x_n$ 出现的概率应该是：

p(x1,,x2,...,xn;θ)=∏i=1np(xi,θ),θ∈Θ $p(x_1,,x_2,...,x_n;\theta) = \prod\limits_{i=1}^np(x_i,\theta),\theta \in\varTheta$
到这里似然函数就定义为样本值

x1,,x2,...,xn $x_1,,x_2,...,x_n$ 出现的概率，即：

L (x 1,, x 2, . . ., x n; θ) = \prod i = 1 n p (x i, θ), θ \in Θ

$L(x_1,,x_2,...,x_n;\theta) =\prod\limits_{i=1}^np(x_i,\theta),\theta\in\varTheta$ 似然函数是

θ $\theta$ 的函数，之前我们说过当一个事件出现，我们就认为它的概率应该在结果中能获得大的概率，那么我们对于最大似然估计直接的考虑就是：对于出现样本值

x1,x2,x3...xn $x_1,x_2,x_3...x_n$ 之后，我们调整似然函数中的参数

θ使得L(x1,,x2,...,xn;θ) $\theta使得L(x_1,,x_2,...,x_n;\theta)$ 的最大，也就是说我们在

θ $\theta$ 的取值空间中取出一个

θ^ $\hat{\theta}$ ,使得：

L (x 1,, x 2, . . ., x n; θ^) = max θ \in Θ L (x 1,, x 2, . . ., x n; θ)

$L(x_1,,x_2,...,x_n;\hat{\theta}) = \max\limits_{\theta\in\varTheta} L(x_1,,x_2,...,x_n;\theta)$ 那么最大估计值

θ^=argmaxθL(x1,,x2,...,xn;θ)=argmaxθ∏i=1np(xi,θ),θ∈Θ $\hat{\theta} = \mathop{argmax}\limits_{\theta}L(x_1,,x_2,...,x_n;\theta)= \mathop{argmax} \limits_{\theta}\prod\limits_{i=1}^np(x_i,\theta),\theta\in\varTheta$

机器学习相关

然后给出机器学习中涉及的最大似然估计：
考虑一组含有m个样本的数据集 $\mathbb X \mathbb=\{x^{(1)},x^{(2)},...,x^{(m)}\}$ ,独立的由未知的真实数据分布 $p_{data}(x)$ 生成。
令 $p_{model}(x；\theta)$ 是一族
由 $\theta$ 确定在相同空间的概率分布，换言之给定x映射到实数来估计真实概率 $p_{data}(x)$ ；
那么对于参数 $\theta$ 的最大似然估计被定义为：