ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结

本文主要是介绍ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、高偏差(欠拟合)(high bias)

1.1、表现

1.2 、解决方法 — Feature Mapping for Polynomial Regression

二、高方差(过拟合)(variance)

2.1、表现

2.2、解决方法 — 正则化



一、高偏差(欠拟合)(high bias)

1.1、表现

% 1.1、无正则化的线性回归的模型
lambda = 0;  
[theta] = trainLinearReg([ones(m, 1) X], y, lambda);
% 1.2、无正则化的线性回归的学习情况
[error_train, error_val] = ...learningCurve([ones(m, 1) X], y, ...[ones(size(Xval, 1), 1) Xval], yval, ...lambda);
  • 左图可以看出回归效果不好,偏差大,模型过于简单,不能反映实际情况,由右图看出,此时增加样本容量,交叉训练误差和训练误差慢慢接近,两者都挺大的。故高偏差的情况下增加样本容量并不能降低偏差,提高效率。

1.2 、解决方法 — Feature Mapping for Polynomial Regression

  • 通过对Feature处理,增加非线性项,使得模型可以更加精确(复杂)
  • 对数据分为训练集、测试集、交叉验证集
lambda = 0;
[theta] = trainLinearReg(X_poly, y, lambda);
[error_train,error_test ,error_val] = ...learningCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest,lambda);
% Plot training data and fit
figure,subplot(1,2,1)
plot(X, y, 'rx', 'MarkerSize', 10, 'LineWidth', 1.5);
plotFit(min(X), max(X), mu, sigma, theta, p);
xlabel('Change in water level (x)');
ylabel('Water flowing out of the dam (y)');
title (sprintf('Polynomial Regression Fit (lambda = %f)', lambda));
legend('Orgin data','polynomial regression fit p=8')subplot(1,2,2)
plot(1:m, error_train,'rx', 1:m, error_val,'g--',1:m, error_test,'MarkerSize', 10, 'LineWidth', 1.5);
title(sprintf('Polynomial Regression Learning Curve (lambda = %f)', lambda));
xlabel('Number of training examples')
ylabel('Error')
axis([0 13 0 100])
legend('Train', 'Cross Validation','Test')
  • 由左图可以看到现在模型可以很好的拟合所有的原始数据(训练误差一直为0),但是交叉误差和测试误差都挺大的,这说明模型的泛化能力不好,出现了另外一个问题:高方差。高方差的问题,可以随着样本数量增加,得到改善(交叉集和测试集的误差都有减少。)

二、高方差(过拟合)(variance)

2.1、表现

  • 模型在训练集上表现很好,但是在测试集、交叉验证集上面表现不好,泛化能力差,模型相对而言不稳定,复杂,方差高
  • 其学习曲线如上图。

2.2、解决方法 — 正则化

  • 增加样本数量

           如上图所示,当样本容量增加时,测试误差、交叉验证误差都会下降,模型性能相对会提高。

  • 使用正则化方法
  1. 计算不同lambda下的训练集、交叉验证机、测试集的误差
    function [lambda_vec, error_train, error_val,error_test] = ...validationCurve2(X, y, Xval, yval,Xtest, ytest)% Selected values of lambda (you should not change this)
    lambda_vec = [0 0.001 0.003 0.01 0.03 0.1 0.3 1 3 10]';error_train = zeros(length(lambda_vec), 1);
    error_val = zeros(length(lambda_vec), 1);
    error_test = zeros(length(lambda_vec), 1);for i=1:size(lambda_vec, 1)theta = trainLinearReg(X, y, lambda_vec(i));error_train(i) = linearRegCostFunction(X, y, theta, 0);error_val(i) = linearRegCostFunction(Xval, yval, theta, 0);error_test(i) = linearRegCostFunction(Xtest, ytest, theta, 0);
    end% =========================================================================end
    

     

  2. 画图
    [lambda_vec, error_train, error_val,error_test] = ...validationCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest);close all;
    plot(lambda_vec, error_train, lambda_vec, error_val, lambda_vec, error_test);
    legend('Train', 'Cross Validation','Test');
    xlabel('lambda');
    ylabel('Error');

     

  3. 结果
  • 通过画学习曲线,找到最佳的正则化参数lambda.

三、交叉验证集和测试集

  1. 通过训练集和交叉验证集,确定参数lambda
  2. 由上步确定的lambda,看测试集的模型效果。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

这篇关于ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637384

相关文章

Java对象和JSON字符串之间的转换方法(全网最清晰)

《Java对象和JSON字符串之间的转换方法(全网最清晰)》:本文主要介绍如何在Java中使用Jackson库将对象转换为JSON字符串,并提供了一个简单的工具类示例,该工具类支持基本的转换功能,... 目录前言1. 引入 Jackson 依赖2. 创建 jsON 工具类3. 使用示例转换 Java 对象为

python安装whl包并解决依赖关系的实现

《python安装whl包并解决依赖关系的实现》本文主要介绍了python安装whl包并解决依赖关系的实现,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录一、什么是whl文件?二、我们为什么需要使用whl文件来安装python库?三、我们应该去哪儿下

Rust格式化输出方式总结

《Rust格式化输出方式总结》Rust提供了强大的格式化输出功能,通过std::fmt模块和相关的宏来实现,主要的输出宏包括println!和format!,它们支持多种格式化占位符,如{}、{:?}... 目录Rust格式化输出方式基本的格式化输出格式化占位符Format 特性总结Rust格式化输出方式

java父子线程之间实现共享传递数据

《java父子线程之间实现共享传递数据》本文介绍了Java中父子线程间共享传递数据的几种方法,包括ThreadLocal变量、并发集合和内存队列或消息队列,并提醒注意并发安全问题... 目录通过 ThreadLocal 变量共享数据通过并发集合共享数据通过内存队列或消息队列共享数据注意并发安全问题总结在 J

Java文件与Base64之间的转化方式

《Java文件与Base64之间的转化方式》这篇文章介绍了如何使用Java将文件(如图片、视频)转换为Base64编码,以及如何将Base64编码转换回文件,通过提供具体的工具类实现,作者希望帮助读者... 目录Java文件与Base64之间的转化1、文件转Base64工具类2、Base64转文件工具类3、

Python中连接不同数据库的方法总结

《Python中连接不同数据库的方法总结》在数据驱动的现代应用开发中,Python凭借其丰富的库和强大的生态系统,成为连接各种数据库的理想编程语言,下面我们就来看看如何使用Python实现连接常用的几... 目录一、连接mysql数据库二、连接PostgreSQL数据库三、连接SQLite数据库四、连接Mo

MYSQL关联关系查询方式

《MYSQL关联关系查询方式》文章详细介绍了MySQL中如何使用内连接和左外连接进行表的关联查询,并展示了如何选择列和使用别名,文章还提供了一些关于查询优化的建议,并鼓励读者参考和支持脚本之家... 目录mysql关联关系查询关联关系查询这个查询做了以下几件事MySQL自关联查询总结MYSQL关联关系查询

Git提交代码详细流程及问题总结

《Git提交代码详细流程及问题总结》:本文主要介绍Git的三大分区,分别是工作区、暂存区和版本库,并详细描述了提交、推送、拉取代码和合并分支的流程,文中通过代码介绍的非常详解,需要的朋友可以参考下... 目录1.git 三大分区2.Git提交、推送、拉取代码、合并分支详细流程3.问题总结4.git push

Kubernetes常用命令大全近期总结

《Kubernetes常用命令大全近期总结》Kubernetes是用于大规模部署和管理这些容器的开源软件-在希腊语中,这个词还有“舵手”或“飞行员”的意思,使用Kubernetes(有时被称为“... 目录前言Kubernetes 的工作原理为什么要使用 Kubernetes?Kubernetes常用命令总

Python中实现进度条的多种方法总结

《Python中实现进度条的多种方法总结》在Python编程中,进度条是一个非常有用的功能,它能让用户直观地了解任务的进度,提升用户体验,本文将介绍几种在Python中实现进度条的常用方法,并通过代码... 目录一、简单的打印方式二、使用tqdm库三、使用alive-progress库四、使用progres