StanFord ML 笔记第六部分第七部分

2024-05-28 20:08

文章标签 笔记部分第七 ml 第六 stanford

本文主要是介绍StanFord ML 笔记第六部分第七部分，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第六部分内容：

　　1.偏差/方差(Bias/variance)

　　2.经验风险最小化(Empirical Risk Minization，ERM)

　　3.联合界(Union bound)

　　4.一致收敛(Uniform Convergence)

第七部分内容：

　　1. VC 维

　　2.模型选择(Model Selection)

　　2017.11.3注释：这两个部分都是讲述理论过程的，第一方面太难了，第二方面现在只想快速理解Ng的20节课程。所以这部分以后回头再看！

　 2017.11.4注释：这理论还是得掌握，不然看Ng视频干嘛？直接去操作TF算了啊。。。。

　　1.偏差/方差(Bias/variance)

　　　　https://www.gitbook.com/book/yoyoyohamapi/mit-ml/details，这个是比较简单的，偷懒不写了。

　　2.经验风险最小化(Empirical Risk Minization，ERM)

　　　　定义一个线性分类器

　　　　其中

(note

)

　　　　假设有m个训练样本，样本之间是独立同分布的。

　　　　定义训练误差：

　　　　训练误差也被称为风险。

　　　　经验风险最小化：选择分类器函数的参数，使得分类器的训练误差(training error)最小。

　　　　让我们换一种考虑方式：我们不是在选择最优分类器函数的参数，而是在选择最优的分类器函数。

　　　　定义假设类

　　　　假设类的每一个成员都是参数n+1个的线性分类器函数。

　　　　重新定义ERM：从假设类H中选取一个函数，使得分类器的训练误差最小。

　　　　实际上，我们并不关心训练误差的大小，我们关心的是分类器对于未知样本的预测能力，也就是一般误差(generation error)：

　　3.联合界(Union bound)

　　　　注释：这里的两个定理证明很麻烦，直接用就可以了，联合界定理很简单不用叙述，Hoeffding 不等式表示试验次数越多均值越趋向真实的值，比如实验10000次硬币，那就正反的比例为1:1。

　　　　3.1.联合界引理(Union Bound)：

　　　　　　令

表示k个事件，这些事件不一定是独立的，

　　　　　　

　　　　3.2.Hoeffding 不等式：

　　　　　　假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布，即

　　　　　　并且

　　　　　　为这些随机变量的均值，给定

，那么有

　　　　　　表达的是对真实分布的估计值与真实分布之间的差值大于

的概率的上界，这个上界随着m的增加而指数下降。

　　　　　　考虑具有有限假设类的情形：

猜想类H具有k个假设

　　　　　　ERM会从H中选出具有最小训练误差的假设

　　　　注释：对Hoeffding 不等式的简单解释如下-->>

　　　　　　Hoeffding不等式是关于一组随机变量均值的概率不等式。如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量，n为随机变量的个数。定义这组随机变量的均值为：

　　　　　　对于任意δ>0, Hoeffding不等式可以表示为

　　　　　　上面的公式似乎写的不是很详细，所以我又从网上copy了一份其他的解释：

　　　　　　Hoeffding不等式：Hoeffding不等式好像有很多个形式，all of statistics里的感觉较难理解，这里写一种好理解的。令

　　　　　　其中：

　　　　　　至于这个公式怎么证明，就不要为难自己了~

　　　　　　而这个公式的用途：

　　　　　　在统计推断中，我们可以利用样本的统计量(statistic)来推断总体的参数(parameter)，譬如使用样本均值来估计总体期望。如下图所示，我们从罐子里抽球，希望估计罐子里红球和绿球的比例。

bin_sample

　　　　　　直觉上，如果我们有更多的样本(抽出更多的球)，则样本期望ν应该越来越接近总体期望μ。事实上，这里可以用hoeffding不等式表示如下：

bin_sample_hoeffding

　　　　　　从hoeffding不等式可以看出，当n逐渐变大时，不等式的UpperBound越来越接近0，所以样本期望越来越接近总体期望。

　　4.一致收敛(Uniform Convergence)　　　

　　　　4.1. 训练误差是一个对一般误差的很好的近似

　　　　　　首先证明第一项，从猜想类H中任意选取一个假设

,定义

　　　　　　

服从伯努利分布，因此

　　　　　　

其均值是假设的一般误差。

　　　　　　训练误差为

　　　　　　由Hoeffding不等式可知

　　　　　　假设m很大，即训练样本很多，那么训练误差将会以很大概率近似于一般误差。

　　　　　　定义事件

为

发生

　　　　　　有

　　　　　　那么对于整个猜想类来说

=

　　　　　　两边同时用1减去

　　　　　　也就是说，在不小于

的概率下，对于猜想类H中的所有假设h，其训练误差和一般误差之间的差距将会在

以内。

　　　　　　这被称为 一致收敛。

　　　　4.2. ERM选择的假设的一般误差存在上界

　　　　　　定义

　　　　　　那么给定

和

解出

　　　　　　意思是，只要你的训练集合包含至少上述m这么多的样本，那么概率至少在

下，有

对H中的所有假设成立。

　　　　　　样本复杂度：为了达到一个特定的错误的界，你需要多大的训练集合。

　　　　　　误差界：

　　　　　　同样的，我们可以固定m和

这里写图片描述

，得到

　　　　　　定义

为H中具有最小一般误差的假设，

为H中具有最小训练误差的假设，那么至少在

的概率下，有

　　　　　　也就是说，我们选择的(具有最小训练误差的)假设的一般误差，和具有最小一般误差的假设的一般误差之间的差值存在

的上界。

　　　　　　直观上，我们可以把第一项

看成是选择假设的偏差，第二项

看成选择假设的方差。

　　　　　　当我们将H替换为更复杂的猜想类H'，即H是H'的子集时，第一项只会变的更小，即偏差变小；而由于k的增大，第二项会变的更大，即方差变大。

　　　　　　将一切总结为两个定理如下：

第七部分：

　　7.1VC维空间，VC界讲的很棒

　　　　　 http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/

　　7.2模型选择

　　　　7.1.1.交叉验证

　　　　　　训练和测试相互参照

　　　　7.1.2特征选择

　　　　　　控制变量，去观察别的变量对结果的影响

　　　　7.1.3特征过滤

　　　　　　计算特征X_i和Y的相关程度，然后再通过交叉验证去排除

参考：http://blog.csdn.net/u013656184/article/details/50178573

　　　 http://www.cnblogs.com/madrabbit/p/7095575.html#undefined

这篇关于StanFord ML 笔记第六部分第七部分的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1011563。 23002807@qq.com

相关文章

一文详解如何在Python中从字符串中提取部分内容

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》：本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST（抽象语法树）、字符串操作... 目录前言解决方案方法一：使用正则表达式方法二：使用 Pyparsing方法三：使用 AST方法四：使用字

阅读更多...

利用Python快速搭建Markdown笔记发布系统

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言：为什么要自建知识博客一、技术选型：极简主义开发栈二、系统架构设计三、核心代码实现（分步解析

阅读更多...

Mysql删除几亿条数据表中的部分数据的方法实现

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

阅读更多...

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

系列文章目录监督学习：参数方法【学习笔记】陈强-机器学习-Python-Ch4 线性回归【学习笔记】陈强-机器学习-Python-Ch5 逻辑回归【课后题练习】陈强-机器学习-Python-Ch5 逻辑回归（SAheart.csv）【学习笔记】陈强-机器学习-Python-Ch6 多项逻辑回归【学习笔记及课后题练习】陈强-机器学习-Python-Ch7 判别分析【学

阅读更多...

系统架构师考试学习笔记第三篇——架构设计高级知识（20）通信系统架构设计理论与实践

系统架构师考试学习笔记第三篇——架构设计高级知识（20）通信系统架构设计理论与实践

本章知识考点：第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

阅读更多...

poj 2976 分数规划二分贪心（部分对总体的贡献度） poj 3111

poj 2976 分数规划二分贪心（部分对总体的贡献度） poj 3111

poj 2976：题意：在n场考试中，每场考试共有b题，答对的题目有a题。允许去掉k场考试，求能达到的最高正确率是多少。解析：假设已知准确率为x，则每场考试对于准确率的贡献值为： a - b * x，将贡献值大的排序排在前面舍弃掉后k个。然后二分x就行了。代码： #include <iostream>#include <cstdio>#incl

阅读更多...

论文阅读笔记: Segment Anything

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

阅读更多...

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问线性规划2. 第二问非线性规划非线性规划非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

阅读更多...

【C++学习笔记 20】C++中的智能指针

【C++学习笔记 20】C++中的智能指针

智能指针的功能在上一篇笔记提到了在栈和堆上创建变量的区别，使用new关键字创建变量时，需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时，不必自己去调用delete，甚至不用调用new。智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针，是一种作用域指针，意思是当指针超出该作用域时，会自动调用delete。它名为unique的原因是这个

阅读更多...

查看提交历史 —— Git 学习笔记 11

查看提交历史 —— Git 学习笔记 11

查看提交历史查看提交历史不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料在提交了若干更新，又或者克隆了某个项目之后，你也许想回顾下提交历史。完成这个任务最简单而又有效的工具是 git log 命令。接下来的例子会用一个用于演示的 simplegit

阅读更多...