Foundation of Machine Learning 笔记第三部分——Guarantees for Finite Hypothesis Sets in Inconsistent Case

本文主要是介绍Foundation of Machine Learning 笔记第三部分——Guarantees for Finite Hypothesis Sets in Inconsistent Case,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

注意事项:

  1. 这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。
  2. 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。
  3. 本文基本翻译自《Foundation of Machine Learning》的2.3节。

正文

在大多数情况下,假设集 H 中往往没有与训练样本一致 (consistent) 的假设。实际上在实践中,由于学习问题可能比较困难,或者 concept class 比学习算法所使用的假设集更复杂,上述情况很典型。但虽然不一致却在训练集上错误较少的假设也可以很实用,我们接下来会证明它的错误率同样能得到一定的保证。这一部分中,我们会证明不一致且假设集有限情况下的学习保证。

为了从更加通用的背景中推导学习保证,我们将使用 Hoeffding 不等式进行证明。

定理 D.1 Hoeffding 不等式

X1,,Xm 是相互独立的随机变量,且对于 i[1,m] 所有的 Xi 在区间 [ai,bi] 中取值。那么给定任意 ϵ>0 ,下列不等式对于样本集 Sm=mi=1Xi 成立:

Pr[SmE[Sm]ϵ]e2ϵ2/mi=1(biai)2(D.4)
Pr[SmE[Sm]ϵ]e2ϵ2/mi=1(biai)2.(D.5)

证明 Hoeffding 不等式的证明偏离了这一章的中心,请详见该书附录。

推论 2.1

固定且使 ϵ>0 ,用 S 指代一个大小为 m 的独立同分布假设集。然后,对于任意假设 h:X{0,1} ,下列不等式成立:

PrSDm[R^(h)R(h)ϵ]e2mϵ2(2.14)
PrSDm[R^(h)R(h)ϵ]e2mϵ2.(2.15)
通过 union bound,这两个单边的限制可以合并成双边的限制:
PrSDm[|R^(h)R(h)|ϵ]2e2mϵ2.(2.16)

证明 (2.14) (2.15) 均由 这个系列的第一篇中的 (2.3) 及 Hoeffding 不等式可得。Union bound 的本质是不等式:
Pr[AB]=Pr[A]+Pr[B]Pr[AB]Pr[A]+Pr[B].

则推论得证。

使 (2.16) 的右侧等于 δ 并求解 ϵ 就能马上得到对于单个假设的上限。

推论 2.2 泛化限制——单一假设

固定一个假设 h:X{0,1} 。那么对于任意 δ>0 ,下面的不等式至少有 1δ 的概率成立:

R(h)R^(h)+log2δ2m.(2.17)

证明 根据 (2.16)
PrSDm[|R^(h)R(h)|ϵ]12e2mϵ2.
使 δ=2e2mϵ2 ,求解 δ=2e2mϵ2 得到:
ϵ=log2δ2m.
有:
PrSDmR(h)R^(h)log2δ2mPrSDm|R^(h)R(h)|log2δ2m1δ.
证明完毕。

定理 2.2 Learning bound ——有限 H ,不一致的情况

H 是一个有限的假设集,那么对于任意 δ>0 ,下面的不等式至少有 1δ 的几率成立:

hH,R(h)R^(h)+log|H|+log2δ2m.(2.20)

证明 h1,,h|H| H 的元素。使用 union bound 以及对每个假设使用推论 2.2,可得:
=   Pr[hH|R^(h)R(h)|>ϵ]Pr[(R^(h1)R(h1)>ϵ)(R^(h|H|)R(h|H|)>ϵ)]hHPr[R^(h)R(h)>ϵ]2|H|e2mϵ2.
使右侧等于 δ 并且解 ϵ ,证明完毕。

因此,对于一个有限的假设集 H

R(h)R^(h)+O(log2|H|m).
就跟前面指出的一样, log2|H| 可以解读为表示 H 所需要的二进制位数。在上一节中一致且 有限的情况下,我们得到了一些结论:样本量越大泛化效果越好,泛化误差的上限随着 |H| 升高而升高,但只是以对数级的关系上升。在这里,得到的误差上限是一个比 log2|H|m 要不利的函数——它随着这一项的开根变化而变化 (我的理解:因为 log2|H|m 比1要小,所以开根得到的值比原值要高,使得泛化性能变差)。如果我们固定 |H| ,并且希望在一致和不一致的情况下获取相同的保证,那么在不一致的情况下我们需要二次于一致情况的带标签样本数。

要注意的是,这个上限告诉我们应该去权衡经验误差和假设集大小:一个大的假设集会被后者惩罚,但是也能够降低前者。但是当经验误差变化不大的时候,我们往往应该使用更小的假设集。这可以看做是所谓的奥卡姆剃刀原则 ( Ocaam’s Razor principle ) 的一个例子。

我的疑惑

定理2.2不能说明不一致的学习问题满足上一节中说到的 PAC 可学习的要求,事实上定理2.2说明的仅仅是:在样本量增多的情况下,任意一个假设的训练误差都会越来越逼近泛化误差。其实这种学习问题根本就不满足前面说到的 PAC 学习,那么它的泛化误差是否满足某种其他上限呢?答案是肯定的。

为了把 PAC 学习框架拓展到这类问题上,人们把 PAC 学习的要求放松了,定义了一种新的 PAC 学习框架:不可知 PAC 学习 ( Agnostic PAC-learning )。它的定义将在本书的下一部分被提出来,在下一篇博客中,我也会尝试去证明不一致情况学习问题满足不可知 PAC 学习。

这篇关于Foundation of Machine Learning 笔记第三部分——Guarantees for Finite Hypothesis Sets in Inconsistent Case的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/970937

相关文章

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓