PRML读书会第三章 Linear Models for Regression

2023-10-04 09:30

本文主要是介绍PRML读书会第三章 Linear Models for Regression,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我负责给大家讲讲 PRML的第3讲 linear regression的内容,请大家多多指教,群主让我们每个主讲人介绍下自己,赫赫,我也说两句,我是 applied mathematics + computer science的,有问题大家可以直接指出,互相学习。大家有兴趣的话可以看看我的博客: http://t.qq.com/keepuphero/mine,当然我给大家推荐一个好朋友的,他对计算机发展还是很有心得的,他的网页http://www.zhizhihu.com/ 对machine learning的东西有深刻的了解。

好,下面言归正传,开讲第3章,第3章的名字是 linear regression,首先需要考虑的是: 为什么在讲完 introduction、probability distributions 之后就直讲 linear regression? machine learning的essence是什么?

机器学习的本质问题: 我个人理解,就是通过数据集学习未知的最佳逼近函数,学习的 收敛性\界 等等都是描述这个学习到的function到底它的性能如何。但是,从数学角度出发,函数是多样的,线性\非线性\跳跃\连续\非光滑,你可以组合出无数的函数,那么这些函数就组成了函数空间,在这些函数中寻找到一个满足你要求的最佳逼近函数,无疑大海捞针。我们再来回顾下第一章的 曲线拟和问题:

prml3-1

需要逼近的函数是: prml3-2,M阶的曲线函数可以逼近么?这是我们值得思考的问题。

prml3-3prml3-4prml3-5prml3-6prml3-7prml3-9

要曲线拟和, 那么拟和的标准是什么?这里用了2范数定义,也就是误差的欧式距离,当然,你可以用 L1,L无穷,等等了 ,只是objective不同罢了。现在的疑问是: 为什么要用Polynomial Fitting?有数学依据么,这里牵扯到 范函的问题,就是函数所张成的空间,举一个简单的例子,大家还都记得 talyor展式吧:

prml3-10

这表明 任意一个函数可以表示成 x的次方之和,也就是 任意一个函数 可以放到  prml3-11所张成的函数空间,如果是有限个基的话就称为欧式空间,无穷的话 就是 Hilbert空间,其实 傅里叶变换 也是这样的一个例子,既然已经明白了 任意函数可以用Polynomial Fitting,那么下面就是什么样的 Polynomial是最好的。
Wilbur_中博(1954123) 19:28:26
泰勒展开是局部的、x0周围的,而函数拟合是全局的,似乎不太一样吧?
planktonli(1027753147) 19:29:21
恩,泰勒展开是局部的,他是在 x0 点周围的一个 表达,函数拟合是全局的,我这里只是用一个简单的例子说明 函数表达的问题。
Wilbur_中博(1954123) 19:30:41

prml3-12

planktonli(1027753147) 19:31:03
其实,要真正解释这个问题是需要范函的东西的。
Wilbur_中博(1954123) 19:31:45
抱歉,打断了一下,因为我觉得这个问题留到讨论就不太好了,呵呵。了解了,请继续吧。
planktonli(1027753147) 19:31:51
由于大多数群友未学过这个课程,我只是想说下这个思想,呵呵,没事,讨论才能深刻理解问题,其实,wavelet这些,包括 kernel construcion这些东西都牵扯到 范函。
Bishop用上面这个例子说明 :
1) 可以用 Polynomial Fitting 拟和 sin类的函数 2) 存在过拟和问题
而且这里的 Polynomial Fitting 是一个线性model, 这里Model是w的函数,w是线性的:

prml3-15

prml3-16是线性的么,肯定不是,那么 让我们再来分析下 研究的问题
prml3-16中的 x 是1维的

prml3-15

上面的X 变成了prml3-18
prml3-19,非常有意思的是: 维数升高了,同时这个model具有了表达非线性东西的

能力。这里的思想,可以说贯穿在 NN,SVM这些东西里,也就是说,线性的model如果应用得当的话,可以表达非线性的东西。与其在所有函数空间盲目的寻找,还不如从一个可行的简单model开始,这就是为什么Bishop在讲完基础后直接切入 Linear regression的原因,当然这个线性model怎么构造,是单层的 linear model,还是多层的 linear model 一直争论不休,BP否定了 perceptron 的model,SVM 否定了 BP model
现在deep learning 又质疑 SVM 的shallow model,或许这就是machine learning还能前进的动力。
让咱们再回来看看linear regression 的模型,这里从标准形式到扩展形式,也就是引入基函数后,Linear regression的模型可以表达非线性的东西了,因为基函数可能是非线性的:

prml3-20

基函数的形式,这些基函数都是非线性的:

prml3-21prml3-22prml3-23

在Gaussian 零均值情况下,Linear model从频率主义出发的MLE就是 Least square:

prml3-25

最小2乘的解就是广义逆矩阵乘输出值:

prml3-26

Gaussian的precision也可以计算出来:

prml3-27

最小2乘的解可以看成到基张成空间的投影:

prml3-28

频率主义会导致 过拟和,加入正则,得到的最小2乘解:

prml3-29

正则参数对model结果的影响:

prml3-30

消除过拟和,正则的几何解释:

prml3-31

正则方法不同,就会出现很多model,例如 lasso, ridge regression。LASSO的解是稀疏的,例如:sparse coding,Compressed sensing 是从 L0–> L1sparse的问题,现在也很热的。

prml3-33prml3-34prml3-35

下面看 Bias-Variance Decoposition,正则就是在 训练数据的模型上加一个惩罚项,shrink 模型的参数,让它不要学习的太过,这里  prml3-36是对训练数据学习到的模型,prml3-37是学习到的参数的惩罚模型

prml3-39prml3-40prml3-41prml3-42

上面这么多PPT无非就是说,学习到的模型和真实的模型的期望由2部分组成:

1–> Bias 2–> Variance。Bias表示的是学习到的模型和真实模型的偏离程度,Variance表示的是学习到的模型和它自己的期望的偏离程度。从这里可以看到正则项在控制 Bias 和 Variance:

prml3-45

Wilbur_中博(1954123) 20:33:07
这个是关键,呵呵
planktonli(1027753147) 20:33:25
Variance小的情况下,Bias就大,Variance大的情况下,Bias就小,我们就要tradeoff它们。

从这张图可以看到 Bias和 Variance的关系:

prml3-46

这个Bias-Variance Decoposition 其实没有太大的实用价值,它只能起一个指导作用。
下面看看  Bayesian Linear Regression:

prml3-50prml3-51prml3-52prml3-54

从Bayesian出发,关注的不是参数的获取,而更多的是 新预测的值,通过后验均值可以得到  linear model和核函数的联系,当然也可以建立 gaussian process这些东西。
Wilbur_中博(1954123) 20:51:25
这里可以讲细一点么,如何建立联系?
planktonli(1027753147) 20:54:44

prml3-55prml3-56

这里就可以看到了啊,看到了么,Wilbur?
Wilbur_中博(1954123) 20:57:24
在看
planktonli(1027753147) 20:58:08
如果共扼先验是 0均值情况下,linear model就可以变成 kernel了:

prml3-58prml3-59

最后讲了bayesain model比较:

prml3-60prml3-61prml3-62

选择最大信任的model来作为模型选择,而非用交叉验证,信任近似:

prml3-64prml3-65prml3-66

固定基存在缺陷为 NN,SVM做铺垫,NN,SVM都是变化基,BP是梯度下降error,固定基,RBF是聚类寻找基,SVM是2次凸优化寻找基。好了,就讲到这里吧,肯定还有讲的不对,或者不足的地方,请大家一起讨论和补充,谢谢。

 

============================讨论===============================

Wilbur_中博(1954123) 21:08:29
RBF不是固定径向基找系数的么,SVM也是固定基的吧,这里寻找基是什么意思?
planktonli(1027753147) 21:09:01
SVM是寻找那些 系数不为0的作为基,RBF,我说的是RBF神经网络,不是RBF基函数,呵呵
Wilbur_中博(1954123) 21:11:07
嗯,但咱们现在这一章,比如多项式基,也可以说是寻找系数不为0的x^k吧,SVM也仍然是固定了某一种核,比如多项式核或者高斯核。嗯,我知道是说RBF网络。
planktonli(1027753147) 21:11:40
恩,可以这么说

Wilbur_中博(1954123) 21:12:35
还有就是,固定一组基的话,也有很多选择,有多项式、也有高斯、logisitic等等,那我们应该怎么选择用什么基去做回归呢?这一章讲得大多都是有了基以后怎么选择w,但怎么选择基这一点有没有什么说法。
planktonli(1027753147) 21:13:37
我说的固定指的是,SVM不知道基是谁,而是通过优化获取的。
Wilbur_中博(1954123) 21:13:41
或者小波傅里叶什么的。。好多基
planktonli(1027753147) 21:14:03
prml3-68这里提出了固定基的问题,基的选择要看样本的几何形状,一般都是 选择 gaussian,当然也可以一个个测试着弄。
Wilbur_中博(1954123) 21:15:55
SVM里有个叫multiple kernel learning的,感觉像是更广泛的变化基的解决方案。嗯,就是说大多是经验性的是吧,选基这个还是蛮有趣的,我觉得。
planktonli(1027753147) 21:16:45
恩,MK是多个kernel的组合,尝试用多个几何形状的kernl去寻找一个更power的。
Wilbur_中博(1954123) 21:17:05
嗯,呵呵
planktonli(1027753147) 21:17:16
恩,kernel construction是ML的主要研究内容之一
Wilbur_中博(1954123) 21:18:14
好的,我没什么问题了,谢谢,以后多交流。看其他朋友还有什么问题。
planktonli(1027753147) 21:50:29
本次的讲义有些内容是群共享里的 Linear1.pdf
下次的linear classification主要讲的内容在群共享中为Linear2.pdf

注:PRML读书会系列文章由 @Nietzsche_复杂网络机器学习 同学授权发布,转载请注明原作者和相关的主讲人,谢谢。

PRML读书会讲稿PDF版本以及更多资源下载地址:http://vdisk.weibo.com/u/1841149974

本文链接地址:http://www.52nlp.cn/prml读书会第三章-linear-models-for-regression

这篇关于PRML读书会第三章 Linear Models for Regression的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1805

相关文章

Modbus初学者教程,第三章:modbus寄存器说明

第三章:modbus寄存器说明 寄存器种类 Modbus协议中一个重要的概念是寄存器,所有的数据均存放于寄存器中。Modbus寄存器是指一块内存区域。Modbus寄存器根据存放的数据类型以及各自读写特性,将寄存器分为4个部分,这4个部分可以连续也可以不连续,由开发者决定。寄存器的意义如下表所示。 Modbus协议定义了设备间的数据传输方式,包括数据格式和通信规则。Modbus寄存器是协议中用

线性回归(Linear Regression)原理详解及Python代码示例

一、线性回归原理详解         线性回归是一种基本的统计方法,用于预测因变量(目标变量)与一个或多个自变量(特征变量)之间的线性关系。线性回归模型通过拟合一条直线(在多变量情况下是一条超平面)来最小化预测值与真实值之间的误差。 1. 线性回归模型         对于单变量线性回归,模型的表达式为:         其中: y是目标变量。x是特征变量。β0是截距项(偏置)。β1

Retrieval-Augmented Generation for Large Language Models A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 文章目录 Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 Abstract背景介绍 RAG概述原始RAG先进RAG预检索过程后检索过程 模块化RAGMo

DataWhale机器学习——第三章线性模型笔记

读书笔记: 《机器学习》第三章 线性模型 3.1 基本形式 3.1.1 线性模型的定义 3.1.2 线性模型的优点 简单易理解计算效率高容易实现和解释 3.1.3 线性模型的局限性 只能表达线性关系对于复杂的非线性关系,表现较差 3.2 线性回归 3.2.1 基本概念 3.2.2 最小二乘法 正规方程 3.2.3 正则化 为防止过拟合,可以在损失函数中加入正

让IE8支持CSS3属性(border-radius、box-shadow、linear-gradient)

下载 PIE-1.0.0.zip解压后,将文件夹重命名为PIE,放到项目目录下在CSS3文件中添加一行代码 behavior: url(PIE/PIE.htc); 例如: .form__input{border-radius: 0.3em;behavior: url(PIE/PIE.htc);} 参考: TYStudio-专注WEB前端开发 css3pie

从零开始学数据结构系列之第三章《平衡二叉树基础概念》

文章目录 前言什么是平衡二叉树往期回顾 前言 ​   在前面的学习过程中,我们了解到二叉排序树可以在一定程度上提高查找(搜索)的效率,但仍然会出现特殊情况,让二叉排序树失效。例如,将序列{1,2,3,4,5,6}中的元素依次插入到二叉排序树中,会得到右斜树,这就相当于一个单链表了,搜索效率降低为O(n)。   于是在 1962 年,一个姓 AV 的大佬(G. M. Ade

AI 大模型企业应用实战(10)-LLMs和Chat Models

1 模型 来看两种不同类型的模型--LLM 和聊天模型。然后,它将介绍如何使用提示模板来格式化这些模型的输入,以及如何使用输出解析器来处理输出。 LangChain 中的语言模型有两种类型: 1.1 Chat Models 聊天模型通常由 LLM 支持,但专门针对会话进行了调整。提供者 API 使用与纯文本补全模型不同的接口。它们的输入不是单个字符串,而是聊天信息列表,输出则是一条人工智能

计算广告:第三章——在线广告产品概览

第三章——在线广告产品概览 一、商业产品的设计原则 二、需求方层级组织及接口 二、供给方管理接口 (1)合约广告产品——主要服务于后续效果不宜直接衡量的品牌类广告主 按时段售卖的CPT广告按约定展示量售卖的CPM广告   (2)竞价广告产品 其形式主要是搜索广告,其产品形式为对搜索关键词的竞价。这种广告拓展到站外广告时,演变为了对页面关键词或者用户标签竞价的产品形式,也就是

ython机器学习分类算法(六)-- 逻辑回归(Logistic Regression)

逻辑回归原理         逻辑回归虽然名为“回归”,但实际上是一种用于处理二分类或多分类问题的分类算法。其核心思想是,利用线性回归模型的预测结果逼近真实标记的对数几率(log odds),因此得名“逻辑回归”。具体来说,逻辑回归通过引入sigmoid函数(或称为逻辑函数),将线性回归模型的输出值映射到0和1之间,从而可以将其解释为某个类别发生的概率。         对于二分类问题,假设输

计组期末复习-第三章存储系统(白中英教材)

这章cache是重点,必须会cache和主存的三种映射。 推荐题目:【考研】计组习题:存储器_某计算机主存按字节编址,由4个-CSDN博客 目录 一、根据存储容量计算地址数和数据位数 二、SRAM和DRAM 三、存储器容量的扩展 四、cache命中率计算 五、多模块交叉存储器 六、主存与Cache地址映射【必须会!!!】 1. 块冲突 2.计算装入的组号,行号等 3. 大题【