Foundation of Machine Learning 笔记第二部分——Guarantees for Finite Hypothesis Sets in Consistent Case

本文主要是介绍Foundation of Machine Learning 笔记第二部分——Guarantees for Finite Hypothesis Sets in Consistent Case,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

注意事项:

  1. 这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。
  2. 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。
  3. 本文基本翻译自《Foundation of Machine Learning》的2.2节。

正文

假设集有限且满足一致性假设下的 PAC 保证

有某些学习任务中,算法总是可以保证其返回的假设 hS 在训练集 S 下误差为0,我们称假设 hS 一致 ( consistent ),称这种问题符合一致性假设。在前一篇文章中我们提到过样本复杂度这个概念,它指的是学习算法要得到近似解所需的样本数。在这一部分中,我们为符合一致性假设且假设集的基数 |H| 有限的学习问题提出一个通用的样本复杂度界限 ( sample complexity bound ),或称为泛化界 ( generalization bound )。由于我们只考虑一致的假设,我们进一步假定目标 concept c 属于 H

定理 2.1 learning bound —— 有限的 H ,一致的情况下

H 为一个由有限个从 X 映射到 Y 的函数构成的集合。 设 A 看作一个能从任意目标 concept cH 和任意服从独立同分布的样本集 S 中学习到至少一个一致假设 hS:R^(hS)=0 的算法。那么对于任意的 ϵ,δ>0 ,如果有

m1ϵ(log|H|+log1δ).(2.8)
不等式 PrSDm[R(hS)ϵ]1δ 成立。 (2.8) 得到的是样本复杂度界限,它与下面的泛化界是等同的:对于任意 ϵ,δ>0 ,下式至少有 1δ 的概率成立:
R(hS)1m(log|H|+log1δ).(2.9)

证明:固定 ϵ 。我们不知道哪一个一致假设 hSH 会被算法 A 选中,这取决于训练样本 S 。因此,我们需要给出一个对所有一致假设都适用的界限,这样这个界限就必然适用于 hS。于是,我们求出假设 hH 一致并且泛化误差大于 ϵ 的概率界限 (我的理解:因为我们不知道哪一个假设集会被选中,所以只能希望所有一致的假设的泛化误差都小于等于 ϵ ,换句话说,只要存在一个一致且泛化误差大于 ϵ 的假设,我们就认为目标 concept 不能通过 H PAC 学习,下面通过求解出现这样一个假设的概率上界,又因为我们已经假定了 H 中起码有一个假设是一致的,最后反过来可以得到所有一致假设泛化误差都小于等于 ϵ 的概率下界):
=Pr[hH:R^(h)=0R(h)>ϵ]Pr[(h1H,R^(h1)=0R(h1)>ϵ)(h2H,R^(h2)=0R(h2)>ϵ)]hHPr[R^(h)=0R(h)>ϵ](union bound)hHPr[R^(h)=0|R(h)<ϵ].(definition of conditional probability)

对于任意泛化误差大于 ϵ 的假设 hH h 在样本集 S 上误差为0的概率的上界为:
Pr[R^(h)=0|R(h)>ϵ](1ϵ)m.
前面的不等式有:
Pr[hH:R^(h)R(h)>ϵ]|H|(1ϵ)m.
进一步对右式进行放大,因为对于任意的 x0 1xex ,则上式进一步化成:
Pr[hH:R^(h)R(h)>ϵ]|H|emϵ.
故只要 δ|H|emϵ 成立,就有
Pr[hH:R^(h)R(h)>ϵ]δ
上式意味着存在一个一致且泛化误差大于 ϵ 的概率是小于 δ 的,那么我们反过来可以认为不存在这种假设的概率是大于等于 1δ 的。也就是说只要算法 A 返回的是一个一致假设,我们就能保证它的泛化误差小于 ϵ 的概率大于 δ

我们可以把 δ|H|emϵ 化成

m1ϵ(log|H|+log1δ).
这样就证明了样本复杂度界限。只要对上式进行简单的转化,我们同样能得到泛化界的证明。证毕。

这个定理说明,当假设集 H 大小有限时,任何一个一致的算法必然PAC可学习,因为 (2.8) 给出的样本复杂度与 1/ϵ 1/δ 的一个多项式相关。 (2.9) 说明了,一致假设的泛化误差是被限制在一个随样本量 m 增大而减少的数值之下的。这与我们对学习算法的经验是一致的:带标签的训练样本越多,学习算法效果越好。这个定理所保证的 O(1/m) 的下降率其实已经非常优秀了。

为了得到一致的假设,我们要付出的代价是需要更大的假设集,以使得假设集包含目标 concept。显然, (2.9) 规定的上限是随着 |H| 上升而上升的。但好事是这种上升只是对数级的。如果我们把 log|H| 这一项转换成 log2|H| ——他们只有一个常数因子的差别,就能把这项理解为表示 H 所需的二进制位数。因此该定理所提供的泛化保证是受位数 log2H 和样本量 m <script type="math/tex" id="MathJax-Element-67">m</script> 控制的。

这篇关于Foundation of Machine Learning 笔记第二部分——Guarantees for Finite Hypothesis Sets in Consistent Case的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/970936

相关文章

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

《数据结构(C语言版)第二版》第八章-排序(8.3-交换排序、8.4-选择排序)

8.3 交换排序 8.3.1 冒泡排序 【算法特点】 (1) 稳定排序。 (2) 可用于链式存储结构。 (3) 移动记录次数较多,算法平均时间性能比直接插入排序差。当初始记录无序,n较大时, 此算法不宜采用。 #include <stdio.h>#include <stdlib.h>#define MAXSIZE 26typedef int KeyType;typedef char In

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个