【PRML】第一章绪论学习笔记

2024-03-14 15:58

本文主要是介绍【PRML】第一章绪论学习笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一章 绪论
1. 模式识别问题与机器学习问题
例子: 手写数字识别 --> 分类问题 --> y=f(x) --> y 属于[0,9]之间

2.基本概念
训练集:由N个数字{x1,x2,...xN}组成的大的集合
测试集:新的目标集
泛化:正确分类与训练集不同的新样本的能力
有监督学习:训练数据的样本包含输入向量以及对应的目标向量的应用叫有监督学习
分类:如果目标变量只能去离散标签中的一个,被称为分类
回归:如果要求的输出由一个或多个连续变量组成,被称为回归
无监督学习:训练数据由一组输入向量x组成,没有任何对应的目标值,称为无监督学习
反馈学习:在给定条件下,找到合适的动作,使得奖励达到最大值。反馈学习的特征:探索和利用的折中。探索是指系统尝试新类型的动作,利用是指系统使用已知能产生较高奖励的动作。
三个重要的工具:概率论、决策论和信息论
在实际应用中,如果想让机器学习技术发挥最大作用的话,清楚地理解它们是必须的。
3.多项式拟合

虽然多项式函数y(x,w)是x的一个非线性函数,但是它是系数w的线性函数。类似多项式函数的这种关于未知参数满足线性关系的函数有着重要的性质,被叫做线性模型。
(1)过拟合的分析:
随着阶数M的增大,系数的大小通常会变大,对于M=9的多项式,通过调节系数,让系数取相当大的正数或者负数,多项式函数可以精确地与数据匹配,但是对于数据之间的点(尤其是临近区间端点出的点),可以看到函数表现出剧烈的震荡。直觉上发生的事情:有着更大M的更灵活的多项式被过分调参,使得多项式被调节成了与目标值的随机噪声相符。

(2)过拟合与数据集、参数:
但是,对于这样的过拟合,随着数据集规模的增大,数据集规模越大,我们能够用来拟合数据的模型就越复杂(即越灵活),一个粗略的估计是数据点的数量不应该小于模型的可调参数的数量的若干倍(5或者10),然而,参数的数量对于模型复杂度的大部分合理的度量来说都不是必要的。
(3)过拟合的解决方法:
寻找模型参数的最小平方方法代表了最大似然的一种特殊情形,并且过拟合问题可以被理解为最大似然的一个通用属性,通过[贝叶斯方法],过拟合问题可以被避免。
贝叶斯观点考虑过拟合:对于模型参数的数量超过数据点数量的情形,没有任何难解之处。一个贝叶斯模型,参数的有效数量会自动根据数据集的规模调节。
4.概率论
(1)定义:用于描述不确定度的度量,定义为事情发生的次数与试验总数的比值。
(2)概率论的规则:加和规则和乘积规则
` (3)相关基本概念:
先验概率和后验概率
概率密度
期望: 期望的物理意义?
方差: 方差的物理意义?
协方差: 协方差的物理意义?表示在多大程度上x和y会共同变化。
如果x和y相互独立,那么它们的协方差为0
(4)贝叶斯定理、贝叶斯概率
与经典的概率学派不同,经典概率学派是通过重复多次来考察频率的,而贝叶斯学派对于无法重复的事件,比如北极圈融化,可以定量地描述不确定性。
(5)从贝叶斯观点来看,能够使用概率论来描述模型参数(例如w)的不确定性,或者模型本身的选择。在水果的例子中,水果种类的观测提供了相关的信息,改变了选择了红盒子的概率,贝叶斯定理通过将观察到的数据融合,来把先验概率转化为后验概率。
(6)贝叶斯概率:

其中分母:
似然函数: p(D|w)
解析,频率学派观点认为,似然函数p(D|w)中的w被认为是一个固定的参数,它的值由某种形式的“估计”[极大似然估计]来确定,这个估计的误差通过考察可能的[数据集D]的概率分布来得到的。
而贝叶斯学派认为,只有一个数据集D(即实际观测到的数据集),参数的不确定性通过[w]的概率分布来表达。
贝叶斯观点对硬币的解释:假如投掷一枚普通的硬币3次,每次都是正面朝上。一个经典的最大似然模型在估计硬币正面朝上的概率时,结果会是1, 表示所有未来的投掷都会是正面朝上的! 相反,一个带有 任意合理的先验信息的方法不会得出这么极端的结论。

5. 高斯分布
(1)基本定义:
公式:
图像:
(2)性质: E(x)=u
方差:
众数: 分布的最大值为众数,在高斯分布中,众数与均值相等
(3)高斯分布与似然函数
假设一观测数据集x=(x1,x2,...xN)^T,表示标量变量x的N次观测,假设每次观测是独立地从高斯分布中抽取的,分布的均值u和方差sigma未知,现在想通过数据集来如何来确定这两个参数?(注:使用通过观测数据集来决定分布的参数的标准为:寻找使似然函数最大值的参数)
分析思路:
a)给出数据集的概率
当把它看成u和sigma的概率时,就为高斯分布的似然函数。
b)对似然函数求对数
通过对对数似然函数分别对mu,sigma求导可得:



如何来理解图1.15? 最大似然方法系统化低估了分布的方差,因为最大似然估计的平均值只会得到正确的均值,但是会降低估计的方差值。
(4)用贝叶斯观点重新分析多元拟合实例:
似然函数为:
似然函数的加法规则为:
似然函数的对数为:
通过对(1.62)对w进行求导取零,可以得w_ML,再求beta_ML
在参数w,beta都求出的情况下,对新的数据的预测为:
考虑高斯分布为:
考虑贝叶斯定理,则:
最大化后验概率等价于最小化误差函数:
按照贝叶斯方法(自始至终地使用概率的加和规则与乘法规则):
预测分布:
均值与方差为:
矩阵S为:
利用贝叶斯进行曲线拟合的结果为:


6.模型选择
(1)模型选择的流程:多项式的阶数 -> 模型的自由参数的个数 -> 模型的复杂度
正则化系数lambda -> 模型的复杂度
(2)交叉验证:
交叉验证的必要性:如果模型的设计使用有限的数据集迭代很多次,那么对于验证数据会发生一定程度的过拟合。因此,保留一个第三方的测试集是很有必要的,并且用测试来评估最终模型的表现。
交叉验证的缺点:
a)需要进行的训练的次数随着划分的段数S而增加,很耗时。
b)对于一个单一的模型,可能有多个复杂度参数,在最坏的情况下,探索这些参数所需要的训练次数可能是参数个数的指数函数。
(3) AIC 信息准则:
定义:通过尝试修改最大似然函数的偏差,修正的方法是增加一个惩罚来补偿过于复杂的模型所造成的过拟合。其公式为:
其中,p(D|w_ML)为最合适的对数似然函数,M为模型可调参数的数量。
缺点:没有考虑模型参数的不确定性,倾向于选择过于简单的模型。

7.维度灾难
(1)实例

8.决策论
(1)概率论如何影响决策论
举例:当我们得到一个新病人的X光片x时,我们的目标是判断这个X光片属于两类中的哪一类?
解析:可以通过贝叶斯定理
其中,p(C_k)为先验概率
p(C_k | x)为后验概率
用极大似然函数求解最大后验概率的类别,即为X光片x的类别。
(2)决策论
决策区域,决策边界或决策面
最小化错误分类概率
最小化期望损失:
损失函数/代价函数:是对所有可能的决策或者动作可能产生的损失的一种整体的度量
平均损失韩式可以通过联合概率得到:
其中,L_kj为损失矩阵。
目标函数,使(1.80)的目标函数最小,即对于每个新的x,把它分到能使下式取得最小值的第j类:
其中p(C_k | x)为后验概率, 根据贝叶斯概率公式为:
(3)拒绝选项的实例
(4)推断和决策
分类问题划分为两个阶段:
推断 --> 使用训练集学习p(C_k | x)模型
决策 --> 根据后验概率p(C_k | x)概率进行最优的分类。
(5)分类的类型:
生成式模型(generative model)
判别式模型(discriminative model)
判别函数
(6)异常点检测或离群点检测
(7)回归问题的损失函数
决策阶段包括对于每个输入x,选择一个对于t值的具体估计的y(x),假设损坏L(t,y(x))则平均损失为:
回归问题的期望损失函数为:
我们的目标为:选择y(x)来最小化(1.87)
使用变分法和加和规则、乘积规则,可以得到回归函数:

解决回归问题的三种方法:
(a) 确定联合概率p(x,t)的推断问题
(b)确定条件概率密度p(t|x)的推断
(c)直接从训练数据中寻找一个回归函数y(x)
闵可夫斯基损失函数(Minkowskiloss)
当q=2时,函数就变成平方损失函数的期望。

9.信息论
(1)定义:
信息量可以看出在学习x的值时候的“惊讶程度”,如果有人告诉我们一件可能发生的事,如果我们知道某件事情一定会发生,则我们不会接受到信息。
对于信息内容的度量将依赖于概率分布p(x),寻找函数h(x)与概率成反比:
(2)信息熵:h(x)的期望成为信息熵(emtropy)
(3)信息熵的理解:
考虑一个集合,包含N个完全相同的物体,这个物体要被分到若干个箱子中,使得第i个箱子中有n_i个物体。考虑把物体分配到箱子中的不同方案的数量。有N种方式选择第一个物体,有(N-1)种方式选择第二个物体,以此类推。因此,总共有N!种方式把N个物体分配到箱子中,然而,我们不想区分每个箱子内部物体的重新排列。在第i个箱子中,有n_i!种方式对物体重新排序,因此,把N个物体分配到箱子中的总方案数量为:
熵被定义为通过适当的参数放缩后的对数乘数,即:
熵与分布的关系:均匀分布的熵最大
(4)条件熵、相对熵和互信息:
条件熵:
相对熵:

互信息:
(5)凸函数:如果每条弦都为于函数图像或其上方,则该函数为凸函数。
凸函数的性质:
Jensen's 不等式:



10. 总结:
(1)频率学派观点
机器学习的过拟合问题
(2)贝叶斯概率公式
贝叶斯定理
贝叶斯观点
贝叶斯的性质
(3)决策论
(4)信息论、信息熵、互信息熵等

这篇关于【PRML】第一章绪论学习笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/808917

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件