PRML读书笔记(2)——Probability Distribution

本文主要是介绍PRML读书笔记(2)——Probability Distribution，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2 Probability Distributions

$\qquad$ 本章主要介绍了机器学习中常用的一些分布，以及分布的性质，包括：二元变量分布、多元变量分布、高斯分布、指数族以及非参方法(核密度方法以及最近邻方法)。

2.1 伯努利分布

$\qquad$ 设二元变量 $x∈{0,1}$ 服从伯努利分布，则有伯努利分布：

B e r n [x | u] = u x (1 - u) 1 - x

$Bern[x|u]=u^x(1-u)^{1-x}$
该分布的期望和方差分别为：

E [x] = u

$E[x]=u$

v a r [x] = u (1 - u)

$var[x]=u(1-u)$
多次伯努利分布叫二项分布，即：

B i n [m | N, u] = (N m) u m (1 - u) N - m

$Bin[m|N,u]={N \choose m}u^m (1-u)^{N-m}$
其期望和方差分别为：

E [m] = N u

$E[m]=Nu$

v a r [m] = N u (1 - u)

$var[m]=Nu(1-u)$

$\qquad$ 根据贝叶斯公式，

P(Y|X)∝P(X|Y)P(Y) $P(Y|X)∝P(X|Y)P(Y)$ ，其中

P(Y) $P(Y)$ 是先验概率，

P(X|Y) $P(X|Y)$ 是似然函数，

P(Y|X) $P(Y|X)$ 是后验概率。为了计算方便或者其他需要，我们有时会希望先验概率和后验概率在形式上相同，因此对于一个给定的后验概率和似然函数，我们希望找出一个先验概率形式和后验概率相同，这样的先验概率叫共轭先验。这里Y一般是控制分布的参数

u $u$ ，而

X $X$ 代表数据。

$\qquad$ 二项分布的共轭先验叫beta分布，形式如下：

B e t a (u │ a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) u a - 1 (1 - u) b - 1

$Beta(u│a,b)=\frac{Γ(a+b)}{Γ(a)Γ(b)} u^{a-1} (1-u)^{b-1}$
其中，

Γ(a) $Γ(a)$ 是gamma函数，即

Γ(a)=∫∞0ux−1e−udu $Γ(a)=∫_0^∞u^{x-1} e^{-u}du$ 。Beta分布的期望和方差如下：

E [x] = a a + b

$E[x]=\frac a{a+b}$

v a r [x] = a b ( a + b ) 2 ( a + b + 1 )

$var[x]=\frac{ab}{(a+b)^2 (a+b+1)}$
其中，

a $a$ 和

b $b$ 被称为超参数，即控制参数的参数，这里

a $a$ 和

b $b$ 控制了

u $u$ 。这样，如果将beta分布作为二项分布的先验概率，变量x的分布会始终保持包含

um(1−u)N−m $u^m(1-u)^{N-m}$ 的形式。我们可以根据贝叶斯公式更新经过似然计算之后的分布参数，具体结果不赘述。当观察到越来越多的数据后，变量的方差会下降。

2.2 多项分布

$\qquad$ 将伯努利分布中的随机变量 $x$ 扩展为多个离散值，则可以有如下概率：

P (x │ u) = \prod K k = 1 u x k k

$P(x│u)=∏_{k=1}^Ku_k^{x_k}$
其中，

u1+u2+⋯+uK=1 $u_1+u_2+⋯+u_K=1$ 且

uk>0 $u_k>0$ 。其期望为：

E [x │ u] = u

$E[x│u]=u$
重复多次该实验，则称为多项分布，其分布如下：

M u l t (m 1, m 2, \dots m K │ N, u) = (N m 1 m 2 \dots m K) \prod K k = 1 u m k k

$Mult(m_1,m_2,…m_K│N,u)={N \choose m_1 m_2…m_K} ∏_{k=1}^K u_k^{m_k}$
其中，

m1+m2+⋯+mK=N $m_1+m_2+⋯+m_K=N$ 。

$\qquad$ 同二项分布一样，我们也希望为多项分布找到一个共轭先验分布，这个分布是狄利克雷分布。狄利克雷分布如下：

B e t a (u │ a, b) = Γ ( a 0 ) Γ ( a 1 ) \dots Γ ( a k ) \prod K k = 1 u a k - 1 k

$Beta(u│a,b)=\frac{Γ(a_0)}{Γ(a_1 )…Γ(a_k)} ∏_{k=1}^K u_k^{a_k-1}$
我们同样可以根据贝叶斯公式计算给定先验和似然函数的后验分布，具体公式略过。

2.3 高斯分布

$\qquad$ 这本书中高斯分布讲的比较多，主要介绍了高斯分布的性质、统计量、条件分布、边缘分布，并从贝叶斯的角度进行了一些介绍。高斯分布的形式为：

N (x │ u, σ) = 1 2 π - - \sqrt σ e - ( x - u ) 2 2 σ 2

$N(x│u,σ)=\frac{1}{\sqrt{2π}σ} e^{-\frac{(x-u)^2}{2σ^2}}$
在多维下的形式为：

N (x │ u, Σ) = 1 ( 2 π ) 2 D 1 | Σ | 1 / 2 e x p {- 1 2 (x - u) T Σ - 1 (x - u)}

$N(\textbf{x}│\textbf{u},Σ)=\frac{1}{(2π)^{2D}} \frac{1}{|Σ|^{1/2}} exp\{-\frac{1}{2}(\textbf{x-u})^T Σ^{-1}(\textbf{x-u})\}$
其中，

u $u$ 是均值，

σ $σ$ 和

Σ $Σ$ 分别是方差和协方差矩阵。可以注意到的是，如果令

yi=uTi(x-u) $\textbf{y}_i=\textbf{u}_i^T (\textbf{x-u})$ 其中

uTi是Σ−1 $\textbf{u}_i^T是Σ^{-1}$ 的特征向量，则该分布可以写成关于

y $y$ 的正态分布，且该正态分布各分量独立，即：

p (y) = \prod D j = 1 1 2 π λ j 1 / 2 e x p {- y 2 j 2 λ j}

$p(\textbf{y})=∏_{j=1}^D\frac{1}{2πλ_j}^{1/2} exp\{-\frac{\textbf{y}_j^2}{2λ_j}\}$
另外，高斯分布的期望和方差为：

E [x] = u

$E[x]=u$

c o v [x] = σ 2

$cov[x]=σ^2$

$\qquad$ 高斯分布常用来作为密度模型来拟合数据，但它也存在很多不足，例如这个分布是单峰的等，有很多其他方法来解决这一问题，例如混合高斯分布等，这将在之后提到。
2.3.1 条件分布

$\qquad$ 给定一个多维高斯分布

N(x│u,Σ) $N(\textbf{x}│\textbf{u},Σ)$ ，将该高斯分布的分量划分为

a $a$ 、

b $b$ 两个部分：

x = (x a x b)

$\textbf{x}={\textbf{x}_a \choose \textbf{x}_b }$
它们的均值和方差为：

u = (u a u b)

$\textbf{u}={\textbf{u}_a \choose \textbf{u}_b}$

Σ = (Σ a a Σ b a Σ a b Σ b b)

$Σ=(\begin{matrix}Σ_{aa} & Σ_{ab} \\ Σ_{ba} & Σ_{bb}\end{matrix})$
则有：

u a | b = u a + Σ a b Σ - 1 b b (x b - u b)

$\textbf{u}_{\textbf{a}|\textbf{b}}=\textbf{u}_a+Σ_{ab} Σ_{bb}^{-1} (\textbf{x}_b-\textbf{u}_b)$

Σ a | b = Σ a a - Σ a b Σ - 1 b b Σ b a

$Σ_{a|b}=Σ_{aa}-Σ_{ab} Σ_{bb}^{-1} Σ_{ba}$
推导过程略。
2.3.2 边缘分布

$\qquad$ 同样按照2.3.1的划分方式，可以推导出高斯分布的边缘分布：

p (x a) = N (x a | u a, Σ a a)

$p(\textbf{x}_a )=N(\textbf{x}_a |\textbf{u}_a,Σ_{aa})$
2.3.3 贝叶斯理论在高斯分布中的应用

$\qquad$ 这一小节主要解决了如下问题：给定

p (x) = N (x | u, Λ - 1)

$p(\textbf{x})=N(\textbf{x}|\textbf{u},Λ^{-1})$

p (y | x) = N (x │ A x + b, L - 1)

$p(\textbf{y}|\textbf{x})=N(\textbf{x}│A\textbf{x}+\textbf{b},L^{-1})$
求

p(y) $p(\textbf{y})$ 和

p(x|y) $p(\textbf{x}|\textbf{y})$ 的分布。推导过程省略，结果是：

p (y) = N (y | A u + b, L - 1 + A Λ - 1 A T)

$p(\textbf{y})=N(\textbf{y}|A\textbf{u}+\textbf{b},L^{-1}+AΛ^{-1} A^T)$

p (x │ y) = N (x | Σ {A T L (y - b) + Λ u}, Σ)

$p(\textbf{x}│\textbf{y})=N(\textbf{x}|Σ\{A^T L(\textbf{y}-\textbf{b})+Λ\textbf{u}\},Σ)$
其中，

Σ = (Λ + A T L A) - 1

$Σ=(Λ+A^T LA)^{-1}$
2.3.4 最大似然估计

$\qquad$ 对于高斯分布的参数，从频率学派的角度出发，可以使用最大似然估计分布的参数，即先对分布求对数，再对目标参数求导，使求导结果为0，得到解析解：

u M L = 1 N \sum N n = 1 x n

$\textbf{u}_{ML}=\frac{1}{N} ∑_{n=1}^N\textbf{x}_n$

Σ M L = 1 N \sum N n = 1 (u M L - x n) (u M L - x n) T

$Σ_{ML}=\frac{1}{N} ∑_{n=1}^N(\textbf{u}_{ML}-\textbf{x}_n)(\textbf{u}_{ML}-\textbf{x}_n)^T$
2.3.5 序贯估计

$\qquad$ 在在线的情况下，数据不是一次到达的，而是连续地不停地到达，这需要我们在原来参数的基础上根据新来的数据连续不断地更新参数，这叫序贯估计。这里以均值为例，将最后一个数据和之前的数据分开，可以得到以下结果：

x (N) M L = u (N - 1) M L + 1 N (x n - u (N - 1) M L)

$x_{ML}^{(N)}=u_{ML}^{(N-1)}+\frac{1}{N}(x_n-u_{ML}^{(N-1)})$

$\qquad$ 从这个公式可以看出，变量

x $x$ 的均值

u $u$ 是第

N−1 $N-1$ 轮的值加上该值与新数据的偏差(error signal)，并且当

N $N$ 逐步增大，之后的数据对

u $u$ 的贡献会慢慢变弱。

$\qquad$ 这可以看做序贯估计的一个例子，对于一般的其他的参数而言，我们需要一种算法框架来实现序贯估计，其中之一叫Robbins-Monro算法。该算法的核心在于，对于联合分布

p(x,θ) $p(x,θ)$ 假设

f(θ) $f(θ)$ 是

x $x$ 的条件期望：

f (θ) = E [x │ θ] = \int x p (x | θ) d x

$f(θ)=E[x│θ]=∫xp(x|θ)dx$
则希望寻找到一个

θ∗ $θ^*$ 使得

f(θ∗)=0 $f(θ^* )=0$ ，即求

f(θ) $f(θ)$ 的根，为此，使用如下的迭代公式迭代：

θ (N) = θ (N - 1) + a N - 1 z (θ (N - 1))

$θ^{(N)}=θ^{(N-1)}+a_{N-1} z(θ^{(N-1)})$

$\qquad$ 例如在高斯分布的均值估计中，

f(θ) $f(θ)$ 即对高斯分布的似然函数求导，并交换计算期望和偏导的次序，由于最大似然估计的目标也是令该式为0，故可使用Robbins-Monro算法框架。需要注意的是

aN $a_N$ 需满足以下条件：

lim N \to \infty a N = 0

$\lim_{N→∞}a_N=0$

\sum \infty N = 1 a N = \infty

$∑_{N=1}^∞a_N =∞$

\sum \infty N = 1 a 2 N < \infty

$∑_{N=1}^∞a_N^2 <∞$
其中，第一个条件保证了变化会不断变小，最终收敛。第二个条件保证了算法不会收敛不到根的值，第三个条件保证了累积的噪声具有一个有限的方差，不会导致收敛失败。
2.3.6 高斯分布中的贝叶斯推理

$\qquad$ 该小节主要考虑的是如何寻找高斯分布的共轭先验，如果分布的方差

σ2 $σ^2$ 是已知的，则选择高斯分布作为高斯分布的共轭先验，如果分布的均值

u $u$ 是已知的，则高斯分布的共轭先验是Gamma分布：

G a m (λ │ a, b) = 1 Γ ( a ) b a λ a - 1 e - b λ

$Gam(λ│a,b)=\frac{1}{Γ(a)} b^a λ^{a-1} e^{-bλ}$
Gamma分布的均值和方差为：

E [λ] = a b

$E[λ]=\frac{a}{b}$

v a r [λ] = a b 2

$var[λ]=\frac{a}{b^2}$

$\qquad$ 对于指数族而言，把先验分布看做是有效的数据观测点是一个非常有用的假设，有效数据点的数量取决于先验分布的参数。

$\qquad$ 如果均值和方差都不知道，则高斯分布的共轭先验分布是Gaussian-gamma分布。在多维的情况下，已知方差的先验分布依旧是多维高斯分布，已知均值的先验分布则是Wishart分布，如果两者都不知道，则其共轭先验是Gaussian-Wishart分布。

$\qquad$ 由于t分布和周期分布在现阶段几乎没有用过，这里略过不做笔记，之后如果有需要再回来看。
2.3.7 混合高斯分布

$\qquad$ 高斯分布是单峰的，但数据的分布可能是多峰的，因此可以使用一种叫混合分布的方法去拟合这些数据，混合高斯分布的概率分布函数如下：

p (x) = \sum N n = 1 π n N (u n, Σ n)

$p(x)=∑_{n=1}^Nπ_n N(u_n,Σ_n)$
其中，

N(un,Σn) $N(u_n,Σ_n)$ 是成员分布，

πn $π_n$ 可以看成是权重，并且

∑Nn=1πn=1 $∑_{n=1}^Nπ_n =1$ 。由于求导的时候可以发现这些参数相互依赖，因此在给定数据的情况下，需要用EM算法求解。

2.4 指数族

$\qquad$ 指数族指的是这样一类函数，它们拥有如下的分布：

p (x │ η) = h (x) g (η) e x p {η T u (x)}

$p(\textbf{x}│\textbf{η})=h(\textbf{x})g(\textbf{η})exp\{\textbf{η}^T \textbf{u}(\textbf{x})\}$
一大批分布都可以写成该形式，包括伯努利分布，多项分布，高斯分布等。在参数估计方面，参数

η $η$ 的最大似然估计如下：

η = 1 N \sum N n = 1 u (x n)

$\textbf{η}=\frac{1}{N} ∑_{n=1}^N\textbf{u}(\textbf{x}_n)$

$\qquad$ 之后书上介绍了指数族的先验选取上的一些事，包括共轭先验、无信息先验。一般来说，如果先验分布的方差比较大，则该先验对后验分布的影响比较小。

2.5 非参方法

$\qquad$ 这里介绍了两种非参的概率密度估计方法，一是最邻近法，而是核方法。首先对概率分布进行离散分箱操作：

p i = n i N

$p_i=\frac{n_i}{N}$
对应地，设一个很小的区域(一个区域对应一个箱子)中有

K $K$ 个数据点，则对于这个区域内的点而言，其概率分布可以使用期望进行估计：

P = K N

$P=\frac{K}{N}$
那么这个区域的密度则为该区域内的所有点的概率分布之和，即区域体积乘以概率分布：

P = p (x) V

$P=p(x)V$
带入之前的式子，则：

p (x) = K N V

$p(x)=\frac{K}{NV}$

$\qquad$ 从直觉上来看，这可以看成是区域内的总概率为

K/N $K/N$ ，将其细分到区域内的每一个点之后得到了每一个点的概率密度。从这个式子出发，我们可以控制

K $K$ ，根据对应

V $V$ 的大小来得到概率密度，这种方法称为最近邻方法。也可以控制

V $V$ 来看看

K $K$ 有多大，这种方法叫核方法。
2.5.1 核方法

$\qquad$ 正如上所述，核方法的重点在于在给定的

V $V$ 内得到

K $K$ 的大小。举个例子的话，给了一个大小

V $V$ 的空间，我们数这个空间内有几个数据点，假设一共

N $N$ 个数据点，我们数到了

K $K$ 个，则这个

V $V$ 空间内的概率密度就是

p (x) = K N V

$p(x)=\frac{K}{NV}$
形象的来说，我们可以令

K = \sum N n = 1 k (x - x n h)

$K=∑_{n=1}^Nk(\frac{x-x_n}{h})$
其中，

h $h$ 是控制空间大小

V $V$ 的参数，我们根据

k(x) $k(x)$ 来决定空间中

x $x$ 这个点附近有多少个数据点，也就是说，我们要数以

x $x$ 为中心的超矩形内有多少个数据点，因此，对于

k(u) $k(u)$ 而言，如果

u $u$ 的绝对值小于

1/2 $1/2$ ，则记数到了一个数据点，反之没数到。具体公式不写了。这个

k(u) $k(u)$ 也未必是要非

1 $1$ 即

0 $0$ ，更常用的是以

h $h$ 为方差，

xn $x_n$ 为均值的高斯核。
2.5.2 近邻方法

$\qquad$ 根据另一个思路，控制

K $K$ ，然后查看

V $V$ 的大小来决定概率大小。也就是说，对于

x $x$ 给定一个近邻数量

K $K$ ，然后调整以

x $x$ 为中心的超球半径，使得超球恰好包含

K $K$ 个近邻，最后计算这个超球的体积

V $V$ 。但需要注意的是，这样做不能得到真正的概率，因为空间的大小通常是不收敛的，因此很难将结果正确归一化。

$\qquad$ 另外近邻方法可以用来做分类问题，也就是KNN了。

这篇关于PRML读书笔记(2)——Probability Distribution的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

PRML读书笔记(2)——Probability Distribution

2 Probability Distributions

2.1 伯努利分布

2.2 多项分布

2.3 高斯分布

2.4 指数族

2.5 非参方法

相关文章

《C++标准库》读书笔记/第一天（C++新特性（1））

读书笔记（一）：双脑记

2024.09.07【读书笔记】| SMRTLink工具对PB组装疑难解答

密码学读书笔记小结

《设计模式：可复用面向对象软件的基础》读书笔记（3）

《程序员修炼之道》读书笔记（8）：注重实效的项目

Linux程序设计读书笔记------入门

概率论 --- Uva 11181 Probability|Given

《Cloud Native Data Center Networking》（云原生数据中心网络设计）读书笔记 -- 10数据中心中的BGP

刘润《关键跃升》读书笔记6