机器学习之Andrew Ng课程复习--- 怎样选择机器学习方法、系统

2024-01-27 16:08

本文主要是介绍机器学习之Andrew Ng课程复习--- 怎样选择机器学习方法、系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

     通过Ng公开课前些章节的学习,我们已经掌握了部分机器学习算法,可是怎么样选择合适的算法去解决自己的问题,构建属于自己的机器学习系统呢?Ng第六堂课给了我们答案。

     Ng的关注重点是:假如你在开发一个机器学习系统,或者试着改进一个机器学习系统时,你应该如何决定接下来应该如何做。为了解释这个过程,我们仍然使用预测房价的例子,假设我们已经实现了用规则化的线性回归方法预测房价:


这个就是最小化代价函数J(θ),在你得到你的学习参数以后,但发现该预测应用于一个新的训练数据上时有很大误差(error),(有可能是过拟合)这时候你想改进该算法,应采取一些解决方案:

Get more training examples

Try smaller sets of features

Try getting additional features

Try adding polynomial features (e.g.  x1^2, x2^2,x1x2...)

Try decreasing λ

Try increasing λ

     这么多方法,人们应该选择哪一个或者哪几个方法去改进现有的算法呢,通常大多数人们都随机选择一个或者几个进行尝试,盲目随机,走了很多弯路,其实存在科学的方法帮大家从以上几种方法中去除几个,留下似乎很有前途的方法,从而节省大量的时间。接下来的俩小结,分别从怎么样评估机器学习算法的性能,和讨论机器学习诊断法入手。

Machine Learning 方法的诊断:

- 什么是诊断Dignostic呢?诊断就是能够判断一种学习算法能不能work,并且改善该算法性能的一个测试。

Diagnostic: A test that you can run to gain insight whatis/isn't working with a learning algorithm, and gain guidance as to how best toimprove its performance.

-诊断的效果:Diagnostics can take time to implement, but doingso can be a very good use of your time.




评价方法假设——Evaluating a hypothesis

    在过去,我们确定学习算法的参数时,我们考虑的是选择参数使得训练误差最小化,有人认为得到训练误差最小一定是一个好事,但事实证明,仅仅是训练误差最小不一定是一个好的假设,有可能过拟合,那么怎么证明或者发行过拟合现象的出现呢。画图仅仅适合低纬的假设,那么我们需要另外一种评价假设的方法,如下给出了一种评价假设的标准方法。

    首先呢,我们将所有数据分为两个集合,一个Trainning set和一个Testing set,用Training set得到参数向量,用Testing set进行测试(比如分类)。(训练集和测试集都随机选取)

 


    我们已经知道了学习一个假设,我们需要costFunction在训练集上最小,现在我们需要CostFuntion在测试集上也能达到最小值,这样我们的模型理论上是最优的模型。(其实还是不公平、不准确的,因为我们在模型选择的时候就是利用测试集上的CF最小来确定的,模型确定以后,验证其泛化能力又用测试集来验证显然不公平,解决方法后面会讲)

这时,将test set的error分为线性回归linear regression和逻辑回归logistic regression两类

线性回归的error:


逻辑回归的error:



模型选择和训练、验证实验数据

    什么是模型选择?比如最适合你手中数据的多项式的次数是几次?怎么样选择正确的特征来构造学习算法,或者你要正确选择正则化参数中的lambda的值,你应该怎么做?This isModelSelection!!(终于找到了学习的热情,拼拼拼)

    面对模型选择问题,如何才能得到一个just fit的模型而不会导致underfit 或者overfit呢?(前面我已经讲了传统思维分数据集为训练和测试集已经不能为我们提供有效的方案)我们引入一类数据集,叫做cross validation set,即交叉验证数据集。将所有数据按<6,2,2>分为training set , crossvalidation set , testing set三类最典型的分配为(60% 20% 20%),如下图所示:


其error计算公式如下,其实三类计算方法大同小异,相同的公式只是换了数据及而已:


进行模型选择的方法其实很简单,对应下图大家来看:

-首先,建立d个model 假设(图中有10个,d表示其id),分别在trainingset 上求使其training error最小的θ向量,那么得到d个θ

-然后,对这d个model假设,带入θ,在crossvalidation set上计算J(cv),即cv seterror最小的一个model 作为 hypothesis,如下图中J(cv)在第4组中最小,便取d=4的假设。

PS: 其实d表示dimension,也就是维度,表示该hypothesis的最大polynomial项是d维的。

PS: 一般地,J(cv)是大于等于J(train)的

PS:为什么这么做?这样我们就为测试集数据留了一条路,因为它没有和假设拟合过,这样我们可以用它来评测模型的泛化能力。



区别诊断偏离bias和偏差(方差)variance


    当你运行一个学习到的算法时,出现效果不好,多半是因为以下俩种情况:1、偏离过大2、偏差过大。即欠拟合、过拟合。那么它俩哪个和欠拟合、哪个和过拟合有关呢,或者是俩者都相关?如果我们能判断出其算法的过拟合或者欠拟合的状态,对于我们改进算法很有帮助。

我们来看看下图:


我们给大家区分两个概念:bias vs. variance。如下图所示为error随不同dimension的model变化图,可以想见,随d上升是一个由underfit到overfit的过程,这个过程中,training set的error逐渐下降,而cv set的error先降后升。(详细解释请猛戳这里http://blog.csdn.net/ywl22/article/details/8606166)

 

上图显示

bias:J(train)大,J(cv)大,J(train)≈J(cv),bias产生于d小,underfit阶段;

variance:J(train)小,J(cv)大,J(train)<<J(cv),variance产生于d大,overfit阶段;


练习题:

 


模型选择和训练、验证实验数据

我们知道算法正则化可以避免过拟合,那么正则化和biasVariance有什么关系呢?下面我们深入研究下biasVariance是如何相互影响的,以及和算法的正则化之间的相互关系。

首先我们回忆下正则化, regularization就是为了防止overfit而在cost function中引入的一个分量。看下图吧,regularization项就是cost function J(θ)中的最后一项,其中λ太大导致underfit,λ太小导致overfit……


1显示,如果我们给lambda一个较大的值比如10000,那么相当于给参数θ一个较大的惩罚,这时候我们得到大θ将特别小,几乎约等于0h(θ) = θ0,这样我们学习得到的模型将欠拟合,即高bias

3显示,如果我们给lambda取一个较小的值,比如等于0(相当于没有正则化项)这时我们如果拟合一个高次多项式,如果没有正则化项或者正则化程度很小的时候,会造成过拟合,高Variance

2显示,显然,只有我们取一个合适的Lambda值,我们才能得到一组合理的参数θ,那么我们应该怎么样自动选择出一个最合适的正则化参数Lambda呢,

首先,将λ从00.01,一直往上每次乘以2,那么到10.24总共可以试12次λ。

12个λ会得到12model cost function,每个对应有J(θ) Jcv(θ).

和模型选择的方法相同,首先选出每个cost function下令J(θ)最小的θ,然后取出令Jcvθ)最小的一组定为最终的λ


练习题:




 

下图表示的是正则化参数lambdabiasVariance以及训练集、交叉验证集上损失函数的影响图。


λ太小导致overfit,产生variance,J(train)<<J(cv)

λ太大导致underfit,产生bias,J(train)≈ J(cv)

 

===============================

Learning Curves

什么时候增加训练数据training set才是有效的?

绘制学习曲线非常重要,也许你想检查你的学习算法运行是否一切正常,或者你想改进算法的表现或效果,那么学习曲线就是一种很好的工具,Ng经常用学习曲线来判断某一个学习算法是否处于偏差 方法的问题或是二者皆有,下面我们来看看如何绘制一条学习曲线。

    为了绘制一条学习曲线,通常先绘制出Jtrain 也就是训练数据集的平均误差平方和,

Jcv表示交叉验证集数据的平均误差平方和,我们要将其绘制成一个关于参数m的函数,也就是关于训练集样本总数的函数,所以m一般都是一个常数,但这里我们对m的取值做一些限制,比如取m为1,4,10,20,30,40几组数据然后绘制出训练集误差,其他样本选择性的忽略。从下图我们可以看到,当m很小的时候,训练误差非常小,因为训练集少,我们可以完全拟合这些少量的数据,但随着m的增大,拟合效果开始下降,即Jtrain开始增大。那么对应的交叉验证集误差呢?当训练集很小的时候,训练的模型泛化能力很差,不能很好地适应新样本,所以Jcv会随着m增大而减少,泛化能力增加。


我们分别就High Bias High Variance来看看学习曲线的变化,以及增加training set个数,即m,是否有意义?!

下图显示:Underfithighbias:增加m无济于事,因为模型本身就拟合的很差。


下图显示:OveryFitHighvariance:增加m使得JtrainJcv之间gap减少,有助于performance提高。


练习题:


综上:增加训练数据的个数对于过拟合是有用的,对于underfit是徒劳!

===============================

Deciding what to try next

我们已经学了怎么样评价一个机器学习系统的性能,模型选择中的bias、variance的意义、区别等,这些诊断方法如何帮助我们弄清哪些方法有助于改进学习算法的效果,哪些又是徒劳。让我们回到最初的例子,在那里找到答案。(如下图)


以上这些方案哪些可以帮助我们更好的改进算法。根据上节学习曲线图可以很快的给出答案。

最后我们回顾一下以上内容,并且看看它们和神经网络的联系,Ng给大家提供了一些很实用的经验和建议(神经网络建模的结构选择或者连接形式的一些技巧)

在神经网络拟合的时候你可以选择一种,比如说一个相对比较简单的神经网络模型(隐藏单元比较少),因为这样的神经网络,学习参数比较少,但很容易出现欠拟合,不过计算量相对应的也就较小。相反,复杂的神经网络结构复杂、有很多隐藏层,容易出现过拟合。但这种神经网络的优势是学习出的结果,性能会很好,但计算量很大。一般一个复杂的神经网络通过正则化修正过拟合后的结果要明显好于一个简单的神经网络的效果。但是隐藏层的选择通常也是一个困难的问题,经验是选择一个隐藏层比较合理。比如我们可以把数据分割成训练、验证、测试三个部分,然后分别计算不同隐藏层数的神经网络结构在验证集上的表现,从而来确定神经网络层数。


练习题:


    综上所述,选择最佳拟合model的问题,是machine learning的常见问题,以上内容可以帮助我们更好的选择一个最佳的模型,更好的应用到机器学习的应用中。


 

这篇关于机器学习之Andrew Ng课程复习--- 怎样选择机器学习方法、系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/650777

相关文章

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资