【林轩田】机器学习基石(六)——泛化理论

2024-01-05 06:08

本文主要是介绍【林轩田】机器学习基石(六)——泛化理论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ppt
video

Lecture 6: Theory of Generalization

6.1 Restriction of Break Point 断点的限制

这一小节提出了一个问题,当我们最小的断点 k=2 k = 2 ,时,我们能推出什么?

  • N=1时, x1 x 1 是圈、叉都可以,这样有 mH(1)=2 m H ( 1 ) = 2
  • N=2时,注意到 k=2 k = 2 是断点,所以 mH(2)22=4 m H ( 2 ) ≤ 2 2 = 4 mH(2) m H ( 2 ) 最大为3
  • N=3时,注意到 k=2 k = 2 是断点,所以 x1,x2,x3 x 1 , x 2 , x 3 中的任两个点都是不能shatter的,林教授以图示的方式说明了,在任两个点都不能shatter的情况下, mH(3) m H ( 3 ) 最大为4
  • 62

注意到,这里 mH()3 m H ( ) 3 已经远小于 23 2 3 了。
即,当 N>k N > k 时,断点 k k 可以极大地限制mH(N)的增长。
63
更进一步,如果上图成立,哈哈,霍夫丁不等式的右边就会接近0,我们无限 M M 的学习可行性也就被论证了。

6.2 Bounding Function: Basic Cases 上界函数(基本案例)

我们这里给出一个新的定义,叫做上界函数,B(N,k),它有两个参数, N N k,它的含义是:在断点为 k k 时,mH(N)的最大可能值。

  • 通过这个上界函数,我们隐藏了 H H 的细节,也就是不论我们的假设函数h是什么,只要 N N k定了, mH(N) m H ( N ) 的上界就不会变。
  • 它的组合数量解释如下:一个最大长度为N的向量,每个维度有圈和叉两个值,这个向量的任意长度为k的子向量都不shatter,求问这样的向量最多一共多少个?

    这样的话,我们的新目标就是下面的不等式:
    64
    林教授给出了一个表格来显示Bounding Function
    65

我们把这个表分为了几块

  • 标号为1这个块,当 k=1 k = 1 时, B(N,1)=1 B ( N , 1 ) = 1
  • 标号为2这个块,当 N<k N < k 时, B(N,k)=2N B ( N , k ) = 2 N
  • 标号为3这个块,当 N=k N = k 时, B(N,k)=2N1 B ( N , k ) = 2 N − 1
  • 标号为4这个块是最重要的,我们填了一个值,就是 B(3,2)=4 B ( 3 , 2 ) = 4 ,这是我们上一节课计算得到的。

6.3 Bounding Function: Inductive Cases 归纳案例

  • 接下来我们考虑图片中 B(4,3) B ( 4 , 3 ) 的值。
  • 首先,我们使用计算机穷举,得到 B(4,3) B ( 4 , 3 ) 的所有结果,一共有11种。
  • 我们将 B(4,3) B ( 4 , 3 ) 的所有二分重新排列一下,得到如下:
    66

可以看到,橘色的都是成双成对的,橘色的 x1,x2,x3 x 1 , x 2 , x 3 每对都一样,紫色的是形单影只的。


B(4,3)=11=2α+β B ( 4 , 3 ) = 11 = 2 ∗ α + β

66

可以看到图中左式的 α+β α + β 就是 x1,x2,x3 x 1 , x 2 , x 3 3个点不shatter的结果,一共有7种,

α+βB(3,3) α + β ≤ B ( 3 , 3 )

68

因为还有 x4 x 4 的存在,为了避免 x1,x2,x3 x 1 , x 2 , x 3 中的任两个与 x4 x 4 shatter了, /alpha / a l p h a 中的任两个也不能shatter。
所以

αB(3,2) α ≤ B ( 3 , 2 )

所以,加起来,

B(4,3)B(3,3)+B(3,2) B ( 4 , 3 ) ≤ B ( 3 , 3 ) + B ( 3 , 2 )

推断一下,就发现了如下规律:
69

整理一下,规律如下:
60

这样就可以证明,在存在固定断点 k k 的情况下,B(N,k)的上限是多项式形式的!!

6.4 A Pictorial Proof 图示法证明

最开始,我们根据霍夫丁不等式,给出的期望坏事情概率上界为

P[|Eout(g)Ein(g)|>ϵ]2Mexp(2Nϵ2) P [ | E o u t ( g ) − E i n ( g ) | > ϵ ] ≤ 2 ∗ M ∗ e x p ( − 2 ∗ N ∗ ϵ 2 )

因为 M M 可能是无限大的,这样右边界就求不出来了,求不出来,我们机器学习的可行性也就无法证明;
所以,我们用了一些手段,以有限的种类,代替无限的数量,将不等式变成了
P[|Eout(g)Ein(g)|>ϵ]2mHexp(2Nϵ2)

这里, mH m H 是某个有界的值。又经过一些推导,我们发现 mH m H 和样本数量 N N 还有断点k的值有关。

  • 当不存在断点时, mH(N)=2N m H ( N ) = 2 N
  • 当存在断点k时, mH(N)=O(Nk1) m H ( N ) = O ( N k − 1 )

但是,虽然我们最终希望得到的不等式是这样的:

P[hH,s.t.|Eout(h)Ein(h)|>ϵ]2mH(N)exp(2Nϵ2) P [ ∃ h ∈ H , s . t . | E o u t ( h ) − E i n ( h ) | > ϵ ] ≤ 2 ∗ m H ( N ) ∗ e x p ( − 2 ∗ N ∗ ϵ 2 )

实际上,当 N N 足够大时,经过计算后,不等式却是这样的

P[hH,s.t.|Eout(h)Ein(h)|>ϵ]22mH(2N)exp(2116Nϵ2)

接下来,我们来证明上式。

第一步,使用 Ein E i n ′ 代替 Eout E o u t

61

  • 注意到 Ein(h) E i n ( h ) 是有限多的, Eout(h) E o u t ( h ) 是无限多的。
  • 我们需要替换掉无限多的 Eout E o u t ,方法是我们假设在新的数据 D D ′ 上得到 Ein E i n ‘ 。因为我们的 Eout E o u t 是完整的分布, Ein E i n Eout E o u t 若相差甚远,有一半的概率 Ein E i n ‘ Ein E i n 也是相差甚远的。
    所以我们可以得到下式:
    11

所以

P[hHs.t.|Ein(h)Eout(h)|>ϵ] P [ ∃ h ∈ H s . t . | E i n ( h ) − E o u t ( h ) | > ϵ ] ≤

2P[hHs.t.|Ein(h)Ein(h)|>ϵ2] 2 ∗ P [ ∃ h ∈ H s . t . | E i n ( h ) − E i n ′ ( h ) | > ϵ 2 ]

第二步:按种类分解 H H

12

  • 我们知道Ein最多有 mH(N) m H ( N ) 种假设函数, Ein E i n ′ 最多也有 mH(N) m H ( N ) 种假设函数。

    • 因为 DD D 和 D ′ 样本可能重叠,所以 EinEin E i n 和 E i n ′ 最多有 mH(2N) m H ( 2 N ) 种假设函数

    • BAD2P[hHs.t.|Ein(h)Ein(h)|>ϵ2] B A D ≤ 2 ∗ P [ ∃ h ∈ H s . t . | E i n ( h ) − E i n ′ ( h ) | > ϵ 2 ]

      因为我们一个 h h 出现BAD的几率是上式,使用 unionbound u n i o n b o u n d 联结假设空间 H H 中所有出现BAD的几率

      BAD2mH(N)P[fixed h s.t.|Ein(h)Ein(h)|>ϵ2] B A D ≤ 2 ∗ m H ( N ) ∗ P [ f i x e d h s . t . | E i n ( h ) − E i n ′ ( h ) | > ϵ 2 ]

    使用无替代的霍夫丁不等式

    13

    |EinEin|>ϵ2|EinEin|2>ϵ4 | E i n − E i n ′ | > ϵ 2 ⟺ | E i n − E i n ′ | 2 > ϵ 4

    |EinEin+Ein2|>ϵ4 ⟺ | E i n − E i n + E i n ′ 2 | > ϵ 4

    13

    上述的证明,其实我充满了疑问,但是总之,证明来证明去,我们得到了一个非常有用的东东!!

    14

    最终,我们论证了二维平面,感知器学习的可行性!

这篇关于【林轩田】机器学习基石(六)——泛化理论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/571891

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个