【机器学习基础】总论

本文主要是介绍【机器学习基础】总论，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本系列为《模式识别与机器学习》的读书笔记。

一，概率论

1，离散型随机变量概率

假设随机变量 $X$ 可以取任意的 $x_i$ ，其中 $\dots. , M$ ，并且随机变量 $Y$ 可以取任意的 $y_j$ ，其中 $1,\dots , L$ 。考虑 $N$ 次试验，其中我们对 $X$ 和 $Y$ 都进⾏取样，把 $X = x_i$ 且 $Y = y_j$ 的试验的数量记作 $n_{ij}$ ，并且，把 $X$ 取值 $x_i$ （与 $Y$ 的取值⽆关）的试验的数量记作 $c_i$ ，类似地，把 $Y$ 取值 $y_j$ 的试验的数量记作 $r_j$ 。

$X$ 取值 $x_i$ 且 $Y$ 取值 $y_j$ 的概率被记作 $p(X = x_i , Y = y_j )$ ，被称为 $X = x_i$ 和 $Y = y_j$ 的联合概率 （joint probability）。它的计算⽅法为落在单元格 $i, j$ 的点的数量与点的总数的⽐值，即：
$p\left(X=x_{i}, Y=y_{i}\right)=\frac{n_{i j}}{N}\tag{1.5}$
如图1.15所示，联合概率的计算方法。
联合概率计算
类似地， $X$ 取值 $x_i$ （与 $Y$ 取值无关）的概率被记作 $p(X = x_i )$ ，也称为边缘概率（marginal probability），计算⽅法为落在列 $i$ 上的点的数量与点的总数的⽐值，即：
$p\left(X=x_{i}\right)=\frac{c_{j}}{N}\tag{1.6}$
由于图1.15中列 $i$ 上的实例总数就是这列的所有单元格中实例的数量之和，即 $c_{i}=\sum_{j} n_{i j}$ ，因此根据公式(1.5)和公式(1.6)，我们可以得到概率的加和规则（sun rule），即：
$p\left(X=x_{j}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)\tag{1.7}$
如果我们只考虑那些 $X = x_i$ 的实例，那么这些实例中 $Y = y_j$ 的实例所占的⽐例被写成 $p(Y = y_j | X = x_i)$ ，被称为给定 $X = x_i$ 的 $Y = y_j$ 的条件概率（conditional probability），其计算⽅式为：计算落在单元格 $i, j$ 的点的数量列 $i$ 的点的数量的⽐值，即：
$p\left(Y=y_{j} | X=x_{i}\right)=\frac{n_{i j}}{c_{i}}\tag{1.8}$
从公式(1.5)、公式(1.6)、公式(1.8)可以推导出概率的乘积规则（product rule），即：
$p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} | X=x_{i}\right) p\left(X=x_{i}\right) \tag{1.9}$

根据乘积规则，以及对称性 $p (X, Y) = p (Y, X)$ ，我们⽴即得到了下⾯的两个条件概率之间的关系，称为贝叶斯定理（Bayes' theorem）即：
$X)=\frac{p(X | Y) p(Y)}{p(X)}\tag{1.10}$

贝叶斯定理（Bayes' theorem），在模式识别和机器学习领域扮演者中⼼⾓⾊。使⽤加和规则，贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰，这样就可以把分母看作归一常数，即：
$p(X)=\sum_{Y} p(X|Y) p(Y)\tag{1.11}$

如果两个变量的联合分布可以分解成两个边缘分布的乘积，即 $p (X, Y) = p (X) p (Y)$ ，那么我们说 $X$ 和 $Y$ 相互独⽴（independent）。

2，概率密度

如果⼀个实值变量x的概率落在区间 $\delta x)$ 的概率由 $p(x)\delta x$ 给出（ $\delta x \to 0$ ），那么 $p (x)$ 叫做 $x$ 的概率密度（probability density）。 $x$ 位于区间 $(a, b)$ 的概率：

$\in(a, b))=\int_{a}^{b} p(x) \mathrm{d}x\tag{1.12}$
如图1.16，概率密度函数。
离散型变量的概率与概率密度函数
由于概率是⾮负的，并且 $x$ 的值⼀定位于实数轴上得某个位置，因此概率密度⼀定满⾜下⾯两个条件：

1） $\geq 0$

$\int_{-\infty}^{\infty} p(x) \mathrm{d} x=1$

在变量以⾮线性的形式变化的情况下，概率密度函数通过Jacobian因⼦变换为与简单的函数不同的形式。

例如，假设我们考虑⼀个变量的变化 $x = g (y)$ ，那么函数 $f (x)$ 就变成了 $\tilde{f}(y)=f(g(y))$ 。现在让我们考虑⼀个概率密度函数 $p_x (x)$ ，它对应于⼀个关于新变量 $y$ 的密度函数 $p_y (y)$ ，对于很⼩的 $\delta x$ 的值，落在区间 $\delta x)$ 内的观测会被变换到区间 $\delta y)$ 中。其中 $p_{x}(x) \delta x \simeq p_{y}(y) \delta y$ ，因此有：
$p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|\tag{1.13}$
位于区间 $(−\infty, z)$ 的 $x$ 的概率由累积分布函数（cumulative distribution function）给出。定义为：
$P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x\tag{1.14}$
如果我们有⼏个连续变量 $x_1 ,\dots , x_D$ ，整体记作向量 $\boldsymbol{x}$ ，那么我们可以定义联合概率密度 $p(\boldsymbol{x}) = p(x_1 ,\dots , x_D )$ ，使得 $\boldsymbol{x}$ 落在包含点 $\boldsymbol{x}$ 的⽆穷⼩体积 $\delta \boldsymbol{x}$ 的概率由 $p(\boldsymbol{x})\delta \boldsymbol{x}$ 给出。多变量概率密度必须满⾜以下条件：

1） $p(\boldsymbol{x}) \geq 0$

$\int p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}=1$

其中，积分必须在整个 $\boldsymbol{x}$ 空间上进⾏。

3，期望和方差

在概率分布 $p (x)$ 下，函数 $f (x)$ 的平均值被称为 $f (x)$ 的期望（expectation），记作 $\mathbb{E}[f]$ 。对于⼀个离散变量，它的定义为：
$\mathbb{E}[f]=\sum_{x} p(x) f(x)\tag{1.15}$
在连续变量的情形下，期望以对应的概率密度的积分的形式表⽰为：