本文主要是介绍【PRML】第一章绪论学习笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
第一章 绪论
1. 模式识别问题与机器学习问题
例子: 手写数字识别 --> 分类问题 --> y=f(x) --> y 属于[0,9]之间
2.基本概念
训练集:由N个数字{x1,x2,...xN}组成的大的集合
测试集:新的目标集
泛化:正确分类与训练集不同的新样本的能力
有监督学习:训练数据的样本包含输入向量以及对应的目标向量的应用叫有监督学习
分类:如果目标变量只能去离散标签中的一个,被称为分类
回归:如果要求的输出由一个或多个连续变量组成,被称为回归
无监督学习:训练数据由一组输入向量x组成,没有任何对应的目标值,称为无监督学习
反馈学习:在给定条件下,找到合适的动作,使得奖励达到最大值。反馈学习的特征:探索和利用的折中。探索是指系统尝试新类型的动作,利用是指系统使用已知能产生较高奖励的动作。
三个重要的工具:概率论、决策论和信息论
在实际应用中,如果想让机器学习技术发挥最大作用的话,清楚地理解它们是必须的。
3.多项式拟合
虽然多项式函数y(x,w)是x的一个非线性函数,但是它是系数w的线性函数。类似多项式函数的这种关于未知参数满足线性关系的函数有着重要的性质,被叫做线性模型。
(1)过拟合的分析:
随着阶数M的增大,系数的大小通常会变大,对于M=9的多项式,通过调节系数,让系数取相当大的正数或者负数,多项式函数可以精确地与数据匹配,但是对于数据之间的点(尤其是临近区间端点出的点),可以看到函数表现出剧烈的震荡。直觉上发生的事情:有着更大M的更灵活的多项式被过分调参,使得多项式被调节成了与目标值的随机噪声相符。
(2)过拟合与数据集、参数:
但是,对于这样的过拟合,随着数据集规模的增大,数据集规模越大,我们能够用来拟合数据的模型就越复杂(即越灵活),一个粗略的估计是数据点的数量不应该小于模型的可调参数的数量的若干倍(5或者10),然而,参数的数量对于模型复杂度的大部分合理的度量来说都不是必要的。
(3)过拟合的解决方法:
寻找模型参数的最小平方方法代表了最大似然的一种特殊情形,并且过拟合问题可以被理解为最大似然的一个通用属性,通过[贝叶斯方法],过拟合问题可以被避免。
贝叶斯观点考虑过拟合:对于模型参数的数量超过数据点数量的情形,没有任何难解之处。一个贝叶斯模型,参数的有效数量会自动根据数据集的规模调节。
4.概率论
(1)定义:用于描述不确定度的度量,定义为事情发生的次数与试验总数的比值。
(2)概率论的规则:加和规则和乘积规则
` (3)相关基本概念:
先验概率和后验概率
概率密度
期望: 期望的物理意义?
方差: 方差的物理意义?
协方差: 协方差的物理意义?表示在多大程度上x和y会共同变化。
如果x和y相互独立,那么它们的协方差为0
(4)贝叶斯定理、贝叶斯概率
与经典的概率学派不同,经典概率学派是通过重复多次来考察频率的,而贝叶斯学派对于无法重复的事件,比如北极圈融化,可以定量地描述不确定性。
(5)从贝叶斯观点来看,能够使用概率论来描述模型参数(例如w)的不确定性,或者模型本身的选择。在水果的例子中,水果种类的观测提供了相关的信息,改变了选择了红盒子的概率,贝叶斯定理通过将观察到的数据融合,来把先验概率转化为后验概率。
(6)贝叶斯概率:
其中分母:
似然函数: p(D|w)
解析,频率学派观点认为,似然函数p(D|w)中的w被认为是一个固定的参数,它的值由某种形式的“估计”[极大似然估计]来确定,这个估计的误差通过考察可能的[数据集D]的概率分布来得到的。
而贝叶斯学派认为,只有一个数据集D(即实际观测到的数据集),参数的不确定性通过[w]的概率分布来表达。
贝叶斯观点对硬币的解释:假如投掷一枚普通的硬币3次,每次都是正面朝上。一个经典的最大似然模型在估计硬币正面朝上的概率时,结果会是1, 表示所有未来的投掷都会是正面朝上的! 相反,一个带有 任意合理的先验信息的方法不会得出这么极端的结论。
5. 高斯分布
(1)基本定义:
公式:
图像:
(2)性质: E(x)=u
方差:
众数: 分布的最大值为众数,在高斯分布中,众数与均值相等
(3)高斯分布与似然函数
假设一观测数据集x=(x1,x2,...xN)^T,表示标量变量x的N次观测,假设每次观测是独立地从高斯分布中抽取的,分布的均值u和方差sigma未知,现在想通过数据集来如何来确定这两个参数?(注:使用通过观测数据集来决定分布的参数的标准为:寻找使似然函数最大值的参数)
分析思路:
a)给出数据集的概率
当把它看成u和sigma的概率时,就为高斯分布的似然函数。
b)对似然函数求对数
通过对对数似然函数分别对mu,sigma求导可得:
如何来理解图1.15? 最大似然方法系统化低估了分布的方差,因为最大似然估计的平均值只会得到正确的均值,但是会降低估计的方差值。
(4)用贝叶斯观点重新分析多元拟合实例:
似然函数为:
似然函数的加法规则为:
似然函数的对数为:
通过对(1.62)对w进行求导取零,可以得w_ML,再求beta_ML
在参数w,beta都求出的情况下,对新的数据的预测为:
考虑高斯分布为:
考虑贝叶斯定理,则:
最大化后验概率等价于最小化误差函数:
按照贝叶斯方法(自始至终地使用概率的加和规则与乘法规则):
预测分布:
均值与方差为:
矩阵S为:
利用贝叶斯进行曲线拟合的结果为:
6.模型选择
(1)模型选择的流程:多项式的阶数 -> 模型的自由参数的个数 -> 模型的复杂度
正则化系数lambda -> 模型的复杂度
(2)交叉验证:
交叉验证的必要性:如果模型的设计使用有限的数据集迭代很多次,那么对于验证数据会发生一定程度的过拟合。因此,保留一个第三方的测试集是很有必要的,并且用测试来评估最终模型的表现。
交叉验证的缺点:
a)需要进行的训练的次数随着划分的段数S而增加,很耗时。
b)对于一个单一的模型,可能有多个复杂度参数,在最坏的情况下,探索这些参数所需要的训练次数可能是参数个数的指数函数。
(3) AIC 信息准则:
定义:通过尝试修改最大似然函数的偏差,修正的方法是增加一个惩罚来补偿过于复杂的模型所造成的过拟合。其公式为:
其中,p(D|w_ML)为最合适的对数似然函数,M为模型可调参数的数量。
缺点:没有考虑模型参数的不确定性,倾向于选择过于简单的模型。
7.维度灾难
(1)实例
8.决策论
(1)概率论如何影响决策论
举例:当我们得到一个新病人的X光片x时,我们的目标是判断这个X光片属于两类中的哪一类?
解析:可以通过贝叶斯定理
其中,p(C_k)为先验概率
p(C_k | x)为后验概率
用极大似然函数求解最大后验概率的类别,即为X光片x的类别。
(2)决策论
决策区域,决策边界或决策面
最小化错误分类概率
最小化期望损失:
损失函数/代价函数:是对所有可能的决策或者动作可能产生的损失的一种整体的度量
平均损失韩式可以通过联合概率得到:
其中,L_kj为损失矩阵。
目标函数,使(1.80)的目标函数最小,即对于每个新的x,把它分到能使下式取得最小值的第j类:
其中p(C_k | x)为后验概率, 根据贝叶斯概率公式为:
(3)拒绝选项的实例
(4)推断和决策
分类问题划分为两个阶段:
推断 --> 使用训练集学习p(C_k | x)模型
决策 --> 根据后验概率p(C_k | x)概率进行最优的分类。
(5)分类的类型:
生成式模型(generative model)
判别式模型(discriminative model)
判别函数
(6)异常点检测或离群点检测
(7)回归问题的损失函数
决策阶段包括对于每个输入x,选择一个对于t值的具体估计的y(x),假设损坏L(t,y(x))则平均损失为:
回归问题的期望损失函数为:
我们的目标为:选择y(x)来最小化(1.87)
使用变分法和加和规则、乘积规则,可以得到回归函数:
解决回归问题的三种方法:
(a) 确定联合概率p(x,t)的推断问题
(b)确定条件概率密度p(t|x)的推断
(c)直接从训练数据中寻找一个回归函数y(x)
闵可夫斯基损失函数(Minkowskiloss)
当q=2时,函数就变成平方损失函数的期望。
9.信息论
(1)定义:
信息量可以看出在学习x的值时候的“惊讶程度”,如果有人告诉我们一件可能发生的事,如果我们知道某件事情一定会发生,则我们不会接受到信息。
对于信息内容的度量将依赖于概率分布p(x),寻找函数h(x)与概率成反比:
(2)信息熵:h(x)的期望成为信息熵(emtropy)
(3)信息熵的理解:
考虑一个集合,包含N个完全相同的物体,这个物体要被分到若干个箱子中,使得第i个箱子中有n_i个物体。考虑把物体分配到箱子中的不同方案的数量。有N种方式选择第一个物体,有(N-1)种方式选择第二个物体,以此类推。因此,总共有N!种方式把N个物体分配到箱子中,然而,我们不想区分每个箱子内部物体的重新排列。在第i个箱子中,有n_i!种方式对物体重新排序,因此,把N个物体分配到箱子中的总方案数量为:
熵被定义为通过适当的参数放缩后的对数乘数,即:
熵与分布的关系:均匀分布的熵最大
(4)条件熵、相对熵和互信息:
条件熵:
相对熵:
互信息:
(5)凸函数:如果每条弦都为于函数图像或其上方,则该函数为凸函数。
凸函数的性质:
Jensen's 不等式:
10. 总结:
(1)频率学派观点
机器学习的过拟合问题
(2)贝叶斯概率公式
贝叶斯定理
贝叶斯观点
贝叶斯的性质
(3)决策论
(4)信息论、信息熵、互信息熵等
这篇关于【PRML】第一章绪论学习笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!