本文主要是介绍【林轩田】机器学习基石(六)——泛化理论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
ppt
video
Lecture 6: Theory of Generalization
6.1 Restriction of Break Point 断点的限制
这一小节提出了一个问题,当我们最小的断点 k=2 k = 2 ,时,我们能推出什么?
- N=1时, x1 x 1 是圈、叉都可以,这样有 mH(1)=2 m H ( 1 ) = 2
- N=2时,注意到 k=2 k = 2 是断点,所以 mH(2)≤22=4 m H ( 2 ) ≤ 2 2 = 4 , mH(2) m H ( 2 ) 最大为3
- N=3时,注意到 k=2 k = 2 是断点,所以 x1,x2,x3 x 1 , x 2 , x 3 中的任两个点都是不能shatter的,林教授以图示的方式说明了,在任两个点都不能shatter的情况下, mH(3) m H ( 3 ) 最大为4
注意到,这里 mH()3 m H ( ) 3 已经远小于 23 2 3 了。
即,当 N>k N > k 时,断点 k k 可以极大地限制的增长。
更进一步,如果上图成立,哈哈,霍夫丁不等式的右边就会接近0,我们无限 M M 的学习可行性也就被论证了。
6.2 Bounding Function: Basic Cases 上界函数(基本案例)
我们这里给出一个新的定义,叫做上界函数,,它有两个参数, N N 和,它的含义是:在断点为 k k 时,的最大可能值。
- 通过这个上界函数,我们隐藏了 H H 的细节,也就是不论我们的假设函数是什么,只要 N N 和定了, mH(N) m H ( N ) 的上界就不会变。
它的组合数量解释如下:一个最大长度为N的向量,每个维度有圈和叉两个值,这个向量的任意长度为k的子向量都不shatter,求问这样的向量最多一共多少个?
这样的话,我们的新目标就是下面的不等式:
林教授给出了一个表格来显示Bounding Function
我们把这个表分为了几块
- 标号为1这个块,当 k=1 k = 1 时, B(N,1)=1 B ( N , 1 ) = 1
- 标号为2这个块,当 N<k N < k 时, B(N,k)=2N B ( N , k ) = 2 N
- 标号为3这个块,当 N=k N = k 时, B(N,k)=2N−1 B ( N , k ) = 2 N − 1
- 标号为4这个块是最重要的,我们填了一个值,就是 B(3,2)=4 B ( 3 , 2 ) = 4 ,这是我们上一节课计算得到的。
6.3 Bounding Function: Inductive Cases 归纳案例
- 接下来我们考虑图片中 B(4,3) B ( 4 , 3 ) 的值。
- 首先,我们使用计算机穷举,得到 B(4,3) B ( 4 , 3 ) 的所有结果,一共有11种。
- 我们将 B(4,3) B ( 4 , 3 ) 的所有二分重新排列一下,得到如下:
可以看到,橘色的都是成双成对的,橘色的 x1,x2,x3 x 1 , x 2 , x 3 每对都一样,紫色的是形单影只的。
令
可以看到图中左式的 α+β α + β 就是 x1,x2,x3 x 1 , x 2 , x 3 3个点不shatter的结果,一共有7种,
即
因为还有 x4 x 4 的存在,为了避免 x1,x2,x3 x 1 , x 2 , x 3 中的任两个与 x4 x 4 shatter了, /alpha / a l p h a 中的任两个也不能shatter。
所以
所以,加起来,
推断一下,就发现了如下规律:
整理一下,规律如下:
这样就可以证明,在存在固定断点 k k 的情况下,的上限是多项式形式的!!
6.4 A Pictorial Proof 图示法证明
最开始,我们根据霍夫丁不等式,给出的期望坏事情概率上界为
因为 M M 可能是无限大的,这样右边界就求不出来了,求不出来,我们机器学习的可行性也就无法证明;
所以,我们用了一些手段,以有限的种类,代替无限的数量,将不等式变成了
这里, mH m H 是某个有界的值。又经过一些推导,我们发现 mH m H 和样本数量 N N 还有断点的值有关。
- 当不存在断点时, mH(N)=2N m H ( N ) = 2 N
- 当存在断点k时, mH(N)=O(Nk−1) m H ( N ) = O ( N k − 1 )
但是,虽然我们最终希望得到的不等式是这样的:
实际上,当 N N 足够大时,经过计算后,不等式却是这样的
接下来,我们来证明上式。
第一步,使用 E′in E i n ′ 代替 Eout E o u t
- 注意到 Ein(h) E i n ( h ) 是有限多的, Eout(h) E o u t ( h ) 是无限多的。
- 我们需要替换掉无限多的 Eout E o u t ,方法是我们假设在新的数据 D′ D ′ 上得到 E‘in E i n ‘ 。因为我们的 Eout E o u t 是完整的分布, Ein E i n 和 Eout E o u t 若相差甚远,有一半的概率 E‘in E i n ‘ 和 Ein E i n 也是相差甚远的。
所以我们可以得到下式:
所以
第二步:按种类分解 H H
我们知道最多有 mH(N) m H ( N ) 种假设函数, E′in E i n ′ 最多也有 mH(N) m H ( N ) 种假设函数。
因为 D和D′ D 和 D ′ 样本可能重叠,所以 Ein和E′in E i n 和 E i n ′ 最多有 mH(2N) m H ( 2 N ) 种假设函数
- BAD≤2∗P[∃h∈Hs.t.|Ein(h)−E′in(h)|>ϵ2] B A D ≤ 2 ∗ P [ ∃ h ∈ H s . t . | E i n ( h ) − E i n ′ ( h ) | > ϵ 2 ]
因为我们一个 h h 出现的几率是上式,使用 unionbound u n i o n b o u n d 联结假设空间 H H 中所有出现的几率
BAD≤2∗mH(N)∗P[fixed h s.t.|Ein(h)−E′in(h)|>ϵ2] B A D ≤ 2 ∗ m H ( N ) ∗ P [ f i x e d h s . t . | E i n ( h ) − E i n ′ ( h ) | > ϵ 2 ]
使用无替代的霍夫丁不等式
|Ein−E′in|>ϵ2⟺|Ein−E′in|2>ϵ4 | E i n − E i n ′ | > ϵ 2 ⟺ | E i n − E i n ′ | 2 > ϵ 4
⟺|Ein−Ein+E′in2|>ϵ4 ⟺ | E i n − E i n + E i n ′ 2 | > ϵ 4上述的证明,其实我充满了疑问,但是总之,证明来证明去,我们得到了一个非常有用的东东!!
最终,我们论证了二维平面,感知器学习的可行性!
这篇关于【林轩田】机器学习基石(六)——泛化理论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!