1.1介绍与多项式曲线拟合(Polynomial Curve Fitting)

2024-02-08 12:18

本文主要是介绍1.1介绍与多项式曲线拟合(Polynomial Curve Fitting),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天开始学Pattern Recognition and Machine Learning (PRML),章节1.1,介绍与多项式曲线拟合(Polynomial Curve Fitting)

转载请注明源地址:http://www.cnblogs.com/xbinworld/archive/2013/04/21/3034300.html 

 

Pattern Recognition and Machine Learning (PRML)书学习,章节1.1,介绍与多项式曲线拟合(Polynomial Curve Fitting)

博士也快念完了,明年毕业,今年开始准备毕业相关的东西,感觉自己做machine learning 的research做的很散,论文发了些,却不系统。决心在毕业前好好补一下基础知识,我相信离开大学就很难有这样的机会了。以前我入门机器学习是看的《The Elements of Statistic Learning》书,(刚开始半本书看了半年,呵呵,比较累),书很不错。一直听说国外很多学校是用PRML这本书做教材的,自己一直当工具书翻,没有仔细看过,因此就打算看PRML这本书了。

尽量把看的内容写到blog中,我打算前面写的章节可以密集一些,当作基础复习,后面的topic可能会适当精选一些。下面的文字有一些是用原书中的句子翻译来的,但很多是我自己的话,毕竟我不是在翻译;其中的公式和图标,基本上会来自原书,毕竟我写只是blog,全自己写太消耗时间了。

章节1.1多项式曲线拟合(Polynomial Curve Fitting)

很多ML的介绍都是从regression(回归)这个问题开始的,PRML也一样。回归问题是很多现实问题的基本解决方法,比如各类预测问题。不过本书第一张并不涉及具体的算法,不是一上来就说线性回归,而是介绍了很多基础概念,我觉得是本书的一大优点。

给定一个N个样本的训练集合,clip_image002,对应目标值(观测值)clip_image004

,我们的目标是在给定训练集合的情况对一个新来的样本clip_image006,预测他的目标值clip_image008。事实上,我们是不知道数据本身是否是产生于某种形式的函数方程的,比如正玄函数sin(),而要从观测数据去发现隐含的方程是很困难的。因为数据本身存在了不确定性(uncertainty)。(注:uncertainty的理解将会贯穿本书。)

我们先试图用多项式函数来拟合数据,形式为:

clip_image010

其中y为预测值,x是输入,w是参数。M是多项式的阶(最大次方)。 注意,虽然多项式对x来说是非线性,但是对于所有参数w来说是线性的。线性方程是M=1的情况。这种对w线性的函数称之为线性模型,linear model,将会在第3-4章介绍。

拟合的一种直观做法是去最小化误差函数,error function, 其中一种最常见的error function叫做sum of the squares:

clip_image012

这个式子的特点是非负,只有当所有点都被正确预测时,error为0。式子中的1/2是为了以后推导时候的方便。(对的,你是对的,很多时候是为了求导后把2去掉- -)。

clip_image014

图1.3简单说明了误差函数的值,图中蓝点是训练数据,y是预测模型,绿线的长度之平方和(减半)就是误差函数的值。要估计w的最优值来得到y(x,w)这个函数做预测,我们需要最小化E(W),因为E(W)是关于w的一个二次方程,是存在全局最优解的,这里可以记最优解的w为clip_image016。好了,现在剩下的最后一个问题是我们因该怎么确定M,也就是用几阶的多项式来拟合数据呢?

clip_image018

我们来看图1.4, 如果数据本身是通过正玄函数加上一点高斯噪音得到(图中蓝点),当然数据怎么来我们是不知道的。我们用多项式来拟合数据,可以看到,当M从0逐渐增大的时候函数的拟合能力越来越强,也就是说在training set中错误的结果越来越小,当M=9的时候我们发现所有的点都被正确的拟合了。那么是不是我们找到了一个最好的结果呢?其实不然,拟合training set只是我们的手段,我们的目标是得到一个具有很好泛化能力的函数,来预测新的数据点。由图1.4的M=9可以看到,和真实曲线(绿线)相差很远,这里就是一个过拟合的问题(over-fitting),可以说是机器学习里面非常重要的一个问题。

如果记录下均方根误差,root-mean-square error

clip_image020

可以得到图1.5的示例,M到了一定阶段以后在test数据上的error就会显著增大了,我们理解成过拟合了!

clip_image022

我们再来简单讨论一下over-fitting的问题。造成over-fitting的因素很多,我个人理解有两点是很重要的,(1)模型太复杂;(2)数据太少。

上面的例子说明了,当我们用M=9的时候,模型对于原始数据来说研究太复杂了,但是也可用是因为数据点太少造成过拟合的。看图1.6,当数据点显著增多时,过拟合问题减少了很多!所以,很重要的一点是,训练样本的足够多以及模型的合适。不过训练样本太多也有其他我问题,比如欠拟合,以及训练不动(- -),这些这里就不谈了。

clip_image024

Machine Learning方法中很重要的一类是正则化,regularization,具体会在以后的章节中仔细介绍。这里给一个直观的理解。最常用的正则化项是约束参数的模,在公式(1.2)对w做约束得到:

clip_image026

如果y是线性方程的时候,公式(1.4)就是ridge regression了。通过图1.7,我们可以看到改变clip_image028 的数值可以对模型产生巨大的影响。当依然是用M=9的时候,加入在正则化项就可以比较好的得到拟合了。当然,新问题又来了,怎么确定新引入的参数clip_image028[1]呢?这又需要一些其他的知识,常见的做法是建立一个validation集合,用来验证参数的选取。后面介绍model selection的时候会讲到一些。

clip_image030

好了,第一小节就介绍到这里,第一章的风格是直观上介绍一些问题,以及给出一些解决方法。对于machine learning 入门的同学是非常好的。


这篇关于1.1介绍与多项式曲线拟合(Polynomial Curve Fitting)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/691013

相关文章

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

java脚本使用不同版本jdk的说明介绍

《java脚本使用不同版本jdk的说明介绍》本文介绍了在Java中执行JavaScript脚本的几种方式,包括使用ScriptEngine、Nashorn和GraalVM,ScriptEngine适用... 目录Java脚本使用不同版本jdk的说明1.使用ScriptEngine执行javascript2.

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

usaco 1.1 Broken Necklace(DP)

直接上代码 接触的第一道dp ps.大概的思路就是 先从左往右用一个数组在每个点记下蓝或黑的个数 再从右到左算一遍 最后取出最大的即可 核心语句在于: 如果 str[i] = 'r'  ,   rl[i]=rl[i-1]+1, bl[i]=0 如果 str[i] = 'b' ,  bl[i]=bl[i-1]+1, rl[i]=0 如果 str[i] = 'w',  bl[i]=b

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

【WebGPU Unleashed】1.1 绘制三角形

一部2024新的WebGPU教程,作者Shi Yan。内容很好,翻译过来与大家共享,内容上会有改动,加上自己的理解。更多精彩内容尽在 dt.sim3d.cn ,关注公众号【sky的数孪技术】,技术交流、源码下载请添加微信号:digital_twin123 在 3D 渲染领域,三角形是最基本的绘制元素。在这里,我们将学习如何绘制单个三角形。接下来我们将制作一个简单的着色器来定义三角形内的像素

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现