PRML读书笔记(1)——introduction

本文主要是介绍PRML读书笔记(1)——introduction，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

$\qquad$ 1.1主要是简介机器学习与模式识别，1.2.1-1.2.4是概率论相关基础，不是本书重点，掌握即可，因此略过不总结。之后的章节主要内容有：线性回归的重新审视，模型选择，维度灾难，决策理论基础以及信息论基础。以下分别作出总结。

1.1 线性回归的重新审视

$\qquad$ 假设数据服从均值为 $y(x,w)$ ，方差为 $β$ 的高斯分布，那么我们可以写出如下的概率公式：

p (t │ w, x, β) = N (t | y (x, w), β - 1)

$p(t│w,x,β)=N(t|y(x,w),β^{-1})$
其中，

t $t$ 代表样本

x $x$ 对应的标签。接下来，我们利用最大后验概率的方法，使用训练集

x,t ${x,t}$ 来决定需要训练的变量

w $w$ 和

β $β$ ：

p (t │ w, x, β) = \prod N n = 1 N (t n | y (x n, w), β - 1)

$p(t│w,x,β)=∏_{n=1}^NN(t_n |y(x_n,w),β^{-1})$
接下来对该式子求对数：

ln p (t │ w, x, β) = \sum N n = 1 [- β 2 (w T x n - t n) 2 - 1 2 ln (2 π) + 1 2 ln (β)]

$\ln p(t│w,x,β)=∑_{n=1}^N[-\frac{β}{2} (w^T x_n-t_n )^2-\frac{1}{2} \ln(2π)+\frac{1}{2}\ln(β)]$

$\qquad$ 如果

β $β$ 不是需要估计的参数，即把

β $β$ 看做常数，则与

w $w$ 相关的项只有：

ln p (t │ w, x, β) = \sum N n = 1 - 1 2 (w T x n - t n) 2

$\ln p(t│w,x,β)=∑_{n=1}^N-\frac{1}{2} (w^T x_n-t_n )^2$
其中保留

12 $\frac{1}{2}$ 是为了求导方便。同时，我们也可以对

β $β$ 求导，并且得到

β $β$ 的最大似然估计。另外，如果我们假设

w $w$ 的先验概率是一个高斯分布:

p (w │ α) = N (w | 0, α - 1 I)

$p(w│α)=N(w|0,α^{-1}I)$
那么根据贝叶斯公式：

p (w │ t, x, β, α) \propto p (w │ α) p (t | w, x, β)

$p(w│t,x,β,α)∝p(w│α)p(t|w,x,β)$
我们可以写出

w $w$ 的对数似然函数，这里直接给出消除与

w $w$ 无关的项之后的结果：

\sum N n = 1 - β 2 (w T x n - t n) + 1 2 w T w

$∑_{n=1}^N-\frac{β}{2} (w^T x_n-t_n )+\frac{1}{2} w^T w$

1.2 模型选择

$\qquad$ 这里主要介绍了交叉验证，以及交叉验证的极端情况leave-one-out。同时介绍了一个Akaike information criterion(AIC)。

1.3 维度灾难

$\qquad$ 在二维的假设空间上，我们可以将其划分为正方形格子，数据都落在这些格子上。这样就会产生一种简单的预测方法，即格子中哪个类别的数据多，这个格子就属于哪个类别。当新样本落在这个格子上，就根据这个格子的类别来判断新样本的类别。但是这样做会有一个问题，在高维空间上，由于维度的增加，格子数目呈指数增长，我们很难有数据去填充这些格子，这就导致大部分格子都是空的，我们无法对这些空格子进行预测。这是维度灾难的一个例子。
$\qquad$ 另一方面，数据在高维空间上的分布可能会违反我们的直觉。例如，我们一般会认为一个球的质量集中在球心，球的外壳只有很少的质量(所以一个苹果的果肉质量远大于果皮？)。然而在高维中，一个超球的质量却集中在超球的壳上，这意味着如果数据在高维空间中呈一个超球分布，那么绝大多数数据都会在球的壳上。另外，高维高斯分布的数据没有集中在均值上，而在聚集在均值的周围形成一个超环。

1.4 决策理论

$\qquad$ 这里的决策理论基础主要讲了两个方法，第一种方法是最小化分类误差，第二种方法是最小化期望损失。然后描述了一下生成模型、判别模型与判别函数。最后使用线性回归举了个例子。
$\qquad$ 先说一下最小化分类误差。我们需要在假设空间中给每一个类别划分一块区域，落在这个区域内的新样本点就被标记为对应的类别。最小化分类误差要做的事，就是让误分类的新样本点最少。具体做法是，假设样本有一定概率落在某一类别 $C_k$ 对应的区域 $R_k$ ，我们的目标是找到一个最好的划分方式，使得样本被误分类的概率最小，即如下的概率最低：

p (m i s t a k e) = \int R 1 p (x, C 2) + \int R 2 p (x, C 1)

$p(mistake)=∫_{R_1}p(x,C_2)+∫_{R_2}p(x,C_1)$

$\qquad$ 一个非常简单的方法就是，对于一个点

x $x$ ，如果

p(x,C2)>p(x,C1) $p(x,C_2 )>p(x,C_1)$ ，则我们就把这个点分配给

C2 $C_2$ 。同时如果我们使用贝叶斯公式，则只需

p(C2|x)p(x)>p(C1|x)p(x) $p(C_2 |x)p(x)>p(C_1 |x)p(x)$ 也即

p(C2|x)>p(C1|x) $p(C_2 |x)>p(C_1 |x)$ 。

$\qquad$ 通常而言，最小化分类误差是符合直觉的，这样能使误分类的样本点最少，但是有时候我们会遇到一些意外情况，例如把正例判为负例的代价要远大于把负例判为正例。例如医院把正常人误诊为癌症可能没什么关系，但是如果癌症患者没有被检测出来，就错过了最佳治疗时间，这是非常严重的。因此，我们在之前最小化分类误差的基础上增加一个损失偏好，这样得到的分类决策就叫最小化期望损失。公式如下：

E [L] = \sum k \sum j \int R j L k j p (x, C k) d x

$E[L]=∑_k∑_j∫_{R_j}L_{kj} p(x,C_k) dx$

$\qquad$ 其中，

Lkj $L_{kj}$ 就是类别为k的点被分到类别j下所造成的损失权重。最小化以上的这个期望损失，就叫最小化期望损失。

$\qquad$ 之后的判别模型与生成模型的区别在其他地方都有提及，此处不重复。需要注意的是，对于判别模型，本书将其分为两种，一是直接求出条件概率

p(Ck|x) $p(C_k |x)$ ，然后根据之前的决策理论来找出决策边界，另一种是直接求出一个判别函数，这个函数完全与概率无关，直接由

x $x$ 得出

Ck $C_k$ 。
在最后的回归问题中，如果我们将

Lkj $L_{kj}$ 设置为二次函数

(y(x)−t)2 $(y(x)-t)^2$ ，那么最小化期望损失对应的解是

y(x)=Et(t│x) $y(x)=E_t (t│x)$ 。如果

Lkj $L_{kj}$ 是一个绝对值

|y(x)−t| $|y(x)-t|$ ，则对应的解是t的概率的众数。这可以通过在损失函数中对

y(x) $y(x)$ 求偏导得出。

1.5 信息论基础

$\qquad$ 信息论的核心在于熵。对于一个随机事件而言，我们想通过一个度量来衡量它的发生给我们带来的信息量。对于一个一定发生的事件而言，这件事发生了不能给我们带来任何惊喜，也就是不能给我们带来任何信息，而对于一个概率很小的事而言，如果发生了，那我们也许会知道很多隐含在这个事件背后的信息。对此，我们需要用一个函数来进行度量。两个独立事件带来的信息量应该是可以相加的，信息量应该随概率的增高而递减，基于这两个出发点，人们用对数的负数来度量一个事件的信息量：

h [x] = - l n p (x)

$h[x]=-lnp(x)$
我们称这个事件的信息量的期望为熵：

H [x] = - \sum x p (x) ln p (x)

$H[x]=-∑_xp(x)\ln p(x)$

$\qquad$ 巧合的是，熵有很多有意思的性质。在编码领域中，一种编码方式的期望长度等于对应熵的大小，因此对于给定概率分布的需编码字母，其分布的熵即为一个字母所需编码长度的最小期望。
另外通过对熵的公式求

p(x) $p(x)$ 的最大似然值，可知当

p(x) $p(x)$ 在离散状态下为均匀分布，连续状态下为高斯分布的时候熵值最大。

$\qquad$ 同时还定义了条件熵：

H [y │ x] = \int \int p (x, y) ln p (y | x) d y d x

$H[y│x]=∫∫p(x,y)\ln p(y|x)dydx$
并且可以很容易证实以下公式：

H [x, y] = H [y │ x] + H [x]

$H[x,y]=H[y│x]+H[x]$
也就是说，事件

x $x$ 与

y $y$ 一起发生给出的信息量，等同于先发生

x $x$ 获得的信息加上发生

x $x$ 后

y $y$ 发生获得的信息。如果我们想传输一串信息，这些字符的分布是

p $p$ ，但是由于信息很长，我们不能完全知道

p $p$ 的分布，但是可以通过采样知道一个近似分布

q $q$ ，现在采取一个度量来度量

p $p$ 和

q $q$ 之间的差距，这个度量就是KL散度：

K L (p | | q) = - \int p (x) ln q (x) - [- \int p (x) ln p (x)] = - \int p (x) ln q ( x ) p ( x )

$KL(p||q)=-∫p(x)\ln q(x)-[-∫p(x)\ln p(x)]=-∫p(x)\ln\frac{q(x)}{p(x)}$

$\qquad$ 可以看出来，从编码的角度看，就是在真实分布为

p $p$ 的情况下，我们却根据分布

q $q$ 的最佳编码来编码，这样明显会增加编码长度，这个长度减去根据

p $p$ 编码的最优编码，就得到了由于选错了分布而导致的多余编码长度。

$\qquad$ 定义得到了KL散度之后，又可以定义另一个有意思的问题，对于两个变量

x $x$ 和

y $y$ ，

p(x,y) $p(x,y)$ 和

p(x)p(y) $p(x)p(y)$ 含有的信息量差了多少呢？这个可以用KL散度来度量，即

KL(p(x,y)||p(x)p(y)) $KL(p(x,y)||p(x)p(y))$ ，叫互信息。互信息有一些性质：

I (x, y) = H [x] - H [x │ y] = H [y] - H [y | x]

$I(x,y)=H[x]-H[x│y]=H[y]-H[y|x]$

$\qquad$ 也就是说，互信息度量的是，对于事件

x $x$ 而言，发生了

y $y$ 导致

x <script type="math/tex" id="MathJax-Element-3439">x</script>的不确定减少程度(熵代表了不确定的度量)。

这篇关于PRML读书笔记(1)——introduction的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

PRML读书笔记(1)——introduction

1.1 线性回归的重新审视

1.2 模型选择

1.3 维度灾难

1.4 决策理论

1.5 信息论基础

相关文章

《C++标准库》读书笔记/第一天（C++新特性（1））

读书笔记（一）：双脑记

2024.09.07【读书笔记】| SMRTLink工具对PB组装疑难解答

密码学读书笔记小结

《设计模式：可复用面向对象软件的基础》读书笔记（3）

《程序员修炼之道》读书笔记（8）：注重实效的项目

AI基础 L1 Introduction to Artificial Intelligence

Linux程序设计读书笔记------入门

Introduction to Deep Learning with PyTorch

《Cloud Native Data Center Networking》（云原生数据中心网络设计）读书笔记 -- 10数据中心中的BGP