【林轩田】机器学习基石（六）—

本文主要是介绍【林轩田】机器学习基石（六）——泛化理论，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ppt
video

Lecture 6: Theory of Generalization

这一小节提出了一个问题，当我们最小的断点 $k=2$ ，时，我们能推出什么？

N=1时， $x_1$ 是圈、叉都可以，这样有 $m_H(1) = 2$
N=2时，注意到 $k=2$ 是断点，所以 $m_H(2) \le 2^2 = 4$ ， $m_H(2)$ 最大为3
N=3时，注意到 $k=2$ 是断点，所以 $x_1,x_2,x_3$ 中的任两个点都是不能shatter的，林教授以图示的方式说明了，在任两个点都不能shatter的情况下， $m_H(3)$ 最大为4

注意到，这里 $m_H()3$ 已经远小于 $2^3$ 了。
即，当 $N>k$ 时，断点 $k$ 可以极大地限制 $m_H(N)$ 的增长。

更进一步，如果上图成立，哈哈，霍夫丁不等式的右边就会接近0，我们无限 $M$ 的学习可行性也就被论证了。

我们这里给出一个新的定义，叫做上界函数， $B(N,k)$ ，它有两个参数, $N$ 和 $k$ ，它的含义是：在断点为 $k$ 时， $m_H(N)$ 的最大可能值。

通过这个上界函数，我们隐藏了 $H$ 的细节，也就是不论我们的假设函数 $h$ 是什么，只要 $N$ 和 $k$ 定了， $m_H(N)$ 的上界就不会变。
它的组合数量解释如下：一个最大长度为N的向量，每个维度有圈和叉两个值，这个向量的任意长度为k的子向量都不shatter，求问这样的向量最多一共多少个？

这样的话，我们的新目标就是下面的不等式：

林教授给出了一个表格来显示Bounding Function

我们把这个表分为了几块

可以看到，橘色的都是成双成对的，橘色的 $x_1,x_2,x_3$ 每对都一样，紫色的是形单影只的。

令

B (4, 3) = 11 = 2 * α + β

$B(4,3) = 11 = 2*\alpha + \beta$

可以看到图中左式的 $\alpha+\beta$ 就是 $x_1,x_2,x_3$ 3个点不shatter的结果，一共有7种，
即

α + β \leq B (3, 3)

$\alpha + \beta \le B(3,3)$

因为还有 $x_4$ 的存在，为了避免 $x_1,x_2,x_3$ 中的任两个与 $x_4$ shatter了， $/alpha$ 中的任两个也不能shatter。
所以

α \leq B (3, 2)

$\alpha \le B(3,2)$

所以，加起来，

B (4, 3) \leq B (3, 3) + B (3, 2)

$B(4,3) \le B(3,3) + B(3,2)$

推断一下，就发现了如下规律：

整理一下，规律如下：

这样就可以证明，在存在固定断点 $k$ 的情况下， $B(N,k)$ 的上限是多项式形式的！！

最开始，我们根据霍夫丁不等式，给出的期望坏事情概率上界为

P [| E o u t (g) - E i n (g) | > ϵ] \leq 2 * M * e x p (- 2 * N * ϵ 2)

$P[|E_{out}(g) - E_{in}(g)|>\epsilon] \le 2*M*exp(-2*N*\epsilon^2)$
因为

M M $M$ 可能是无限大的，这样右边界就求不出来了，求不出来，我们机器学习的可行性也就无法证明；
所以，我们用了一些手段，以有限的种类，代替无限的数量，将不等式变成了

P [| E_{o u t} (g) - E_{i n} (g) | > ϵ] \leq 2 * m_{H} * e x p (- 2 * N * ϵ^{2})

$P[|E_{out}(g) - E_{in}(g)|>\epsilon] \le 2*m_{H}*exp(-2*N*\epsilon^2)$
这里，

mH m H $m_H$ 是某个有界的值。又经过一些推导，我们发现

mH m H $m_H$ 和样本数量

N N $N$ 还有断点

k

$k$ 的值有关。

但是，虽然我们最终希望得到的不等式是这样的：

P [\exists h \in H, s . t . | E o u t (h) - E i n (h) | > ϵ] \leq 2 * m H (N) * e x p (- 2 * N * ϵ 2)

$P[\exists h \in H, s.t. |E_{out}(h) - E_{in}(h)|>\epsilon] \le 2*m_{H}(N)*exp(-2*N*\epsilon^2)$

实际上，当 $N$ 足够大时，经过计算后，不等式却是这样的

P [\exists h \in H, s . t . | E_{o u t} (h) - E_{i n} (h) | > ϵ] \leq 2 * 2 m_{H} (2 N) * e x p (- 2 * \frac{1}{16} * N * ϵ^{2})

$P[\exists h \in H, s.t. |E_{out}(h) - E_{in}(h)|>\epsilon] \le 2*2m_{H}(2N)*exp(-2*\frac{1}{16}*N*\epsilon^2)$

接下来，我们来证明上式。

注意到 $E_{in}(h)$ 是有限多的， $E_{out}(h)$ 是无限多的。
我们需要替换掉无限多的 $E_{out}$ ，方法是我们假设在新的数据 $D'$ 上得到 $E_{in}^{‘}$ 。因为我们的 $E_{out}$ 是完整的分布， $E_{in}$ 和 $E_{out}$ 若相差甚远，有一半的概率 $E_{in}^{‘}$ 和 $E_{in}$ 也是相差甚远的。
所以我们可以得到下式：

所以

P [\exists h \in H s . t . | E i n (h) - E o u t (h) | > ϵ] \leq

$P[\exists h \in H s.t. |E_{in}(h) - E_{out}(h)| > \epsilon] \le$

2 * P [\exists h \in H s . t . | E i n (h) - E' i n (h) | > ϵ 2]

$2*P[\exists h \in H s.t. |E_{in}(h) - E_{in}^{'}(h)| > \frac{\epsilon}{2}]$