本文主要是介绍PRML读书笔记(1)——introduction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.1主要是简介机器学习与模式识别,1.2.1-1.2.4是概率论相关基础,不是本书重点,掌握即可,因此略过不总结。之后的章节主要内容有:线性回归的重新审视,模型选择,维度灾难,决策理论基础以及信息论基础。以下分别作出总结。
1.1 线性回归的重新审视
假设数据服从均值为 y(x,w) ,方差为 β 的高斯分布,那么我们可以写出如下的概率公式:
其中, t 代表样本
接下来对该式子求对数:
如果 β 不是需要估计的参数,即把
其中保留 12 是为了求导方便。同时,我们也可以对 β 求导,并且得到
那么根据贝叶斯公式:
我们可以写出 w 的对数似然函数,这里直接给出消除与
1.2 模型选择
这里主要介绍了交叉验证,以及交叉验证的极端情况leave-one-out。同时介绍了一个Akaike information criterion(AIC)。
1.3 维度灾难
在二维的假设空间上,我们可以将其划分为正方形格子,数据都落在这些格子上。这样就会产生一种简单的预测方法,即格子中哪个类别的数据多,这个格子就属于哪个类别。当新样本落在这个格子上,就根据这个格子的类别来判断新样本的类别。但是这样做会有一个问题,在高维空间上,由于维度的增加,格子数目呈指数增长,我们很难有数据去填充这些格子,这就导致大部分格子都是空的,我们无法对这些空格子进行预测。这是维度灾难的一个例子。
另一方面,数据在高维空间上的分布可能会违反我们的直觉。例如,我们一般会认为一个球的质量集中在球心,球的外壳只有很少的质量(所以一个苹果的果肉质量远大于果皮?)。然而在高维中,一个超球的质量却集中在超球的壳上,这意味着如果数据在高维空间中呈一个超球分布,那么绝大多数数据都会在球的壳上。另外,高维高斯分布的数据没有集中在均值上,而在聚集在均值的周围形成一个超环。
1.4 决策理论
这里的决策理论基础主要讲了两个方法,第一种方法是最小化分类误差,第二种方法是最小化期望损失。然后描述了一下生成模型、判别模型与判别函数。最后使用线性回归举了个例子。
先说一下最小化分类误差。我们需要在假设空间中给每一个类别划分一块区域,落在这个区域内的新样本点就被标记为对应的类别。最小化分类误差要做的事,就是让误分类的新样本点最少。具体做法是,假设样本有一定概率落在某一类别 Ck 对应的区域 Rk ,我们的目标是找到一个最好的划分方式,使得样本被误分类的概率最小,即如下的概率最低:
一个非常简单的方法就是,对于一个点 x ,如果
通常而言,最小化分类误差是符合直觉的,这样能使误分类的样本点最少,但是有时候我们会遇到一些意外情况,例如把正例判为负例的代价要远大于把负例判为正例。例如医院把正常人误诊为癌症可能没什么关系,但是如果癌症患者没有被检测出来,就错过了最佳治疗时间,这是非常严重的。因此,我们在之前最小化分类误差的基础上增加一个损失偏好,这样得到的分类决策就叫最小化期望损失。公式如下:
其中, Lkj 就是类别为k的点被分到类别j下所造成的损失权重。最小化以上的这个期望损失,就叫最小化期望损失。
之后的判别模型与生成模型的区别在其他地方都有提及,此处不重复。需要注意的是,对于判别模型,本书将其分为两种,一是直接求出条件概率 p(Ck|x) ,然后根据之前的决策理论来找出决策边界,另一种是直接求出一个判别函数,这个函数完全与概率无关,直接由 x 得出
在最后的回归问题中,如果我们将 Lkj 设置为二次函数 (y(x)−t)2 ,那么最小化期望损失对应的解是 y(x)=Et(t│x) 。如果 Lkj 是一个绝对值 |y(x)−t| ,则对应的解是t的概率的众数。这可以通过在损失函数中对 y(x) 求偏导得出。
1.5 信息论基础
信息论的核心在于熵。对于一个随机事件而言,我们想通过一个度量来衡量它的发生给我们带来的信息量。对于一个一定发生的事件而言,这件事发生了不能给我们带来任何惊喜,也就是不能给我们带来任何信息,而对于一个概率很小的事而言,如果发生了,那我们也许会知道很多隐含在这个事件背后的信息。对此,我们需要用一个函数来进行度量。两个独立事件带来的信息量应该是可以相加的,信息量应该随概率的增高而递减,基于这两个出发点,人们用对数的负数来度量一个事件的信息量:
我们称这个事件的信息量的期望为熵:
巧合的是,熵有很多有意思的性质。在编码领域中,一种编码方式的期望长度等于对应熵的大小,因此对于给定概率分布的需编码字母,其分布的熵即为一个字母所需编码长度的最小期望。
另外通过对熵的公式求 p(x) 的最大似然值,可知当 p(x) 在离散状态下为均匀分布,连续状态下为高斯分布的时候熵值最大。
同时还定义了条件熵:
并且可以很容易证实以下公式:
也就是说,事件 x 与
可以看出来,从编码的角度看,就是在真实分布为 p 的情况下,我们却根据分布
也就是说,互信息度量的是,对于事件 x 而言,发生了
这篇关于PRML读书笔记(1)——introduction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!