Foundation of Machine Learning 笔记第五部分 (2) —

本文主要是介绍Foundation of Machine Learning 笔记第五部分 (2) —— Rademacher Complexity 和 VC 维，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

注意事项：

这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记，但实际我是直接对书本的部分内容进行了个人翻译，如果这个行为有不妥当的地方，敬请告知。
由于知识面限制，部分名词的翻译可能存在错误，部分难以翻译的名词保留英文原词。为了防止误导大家，在这里声明本文仅供参考。
本文基本翻译自《Foundation of Machine Learning》的3.1节。

正文

接下来的内容将关系到假设集 $H$ 的 empirical Rademacher complexity 和与 $H$ 相关的二元损失函数族 $G$ ( 我的补充：如上一步所提出的，损失函数族 $G$ 是基于假设集 $H$ 定义的，已知假设是一个从 $\mathcal{X}$ 映射到 $\mathcal{Y}$ 的函数，而损失函数 $L$ 是从 $\mathcal{Y}\times\mathcal{Y}$ 映射到 $\mathbb{R}$ 的函数，把上面这两个映射结合起来得到一个新的损失函数的定义 $g:(\mathcal{X}\times\mathcal{Y})\to \mathbb{R}$ ，用函数的形式表达，也就是 $g(x,y) = L(h(x), y)$ 。而二元损失函数是取值只为 0 或者 1 的损失函数，本节把映射 $L$ 定义为 $1_{h(x)\neq y}$ 这个函数 ) 。

引理 3.1

用 $H$ 代表一族在 $\{-1,+1\}$ 上取值的函数，用 $G$ 代表一族与 $H$ 相关的二元损失函数： $G=\{(x,y)\mapsto1_{h(x)\neq y}:h \in H\}$ 。对于任意的在空间 $\mathcal{X}\times\{-1,+1\}$ 中取样的样本集 $S=((x_1,y_1),\dots,(x_m,y_m))$ ，用 $S_{\mathcal{X}}$ 表示这个样本集到空间 $\mathcal{X}$ 上的投影： $S_\mathcal{X}=(x_1,\dots,x_m)$ 。那么， $G$ 和 $H$ 的 empirical Rademacher complexity 满足以下关系 ( 我的理解：注意Rademacher complexity 是一种描述函数族性质的量)：

R^S (G) = 1 2 R^S X (H) . (3.16)

$\hat{\mathfrak{R}}_S(G)=\frac{1}{2}\hat{\mathfrak{R}}_{S_\mathcal{X}}(H).\tag{3.16}$

证明对于空间 $\mathcal{X}\times \{-1,+1\}$ 中的任意样本集 $S=((x_1,y_1),\dots,(x_m,y_m))$ ，通过定义， $G$ 的 empirical Rademacher complexity 可以写成：

R^S (G) = = = = E σ [sup h \in H 1 m \sum i = 1 m σ i 1 h (x i) \neq y i] E σ [sup h \in H 1 m \sum i = 1 m σ i 1 - y i h ( x i ) 2] 1 2 E σ [sup h \in H 1 m \sum i = 1 m - σ i y i h (x i)] (σ i 的 数 学 期 望 为 0) 1 2 E σ [sup h \in H 1 m \sum i = 1 m σ i h (x i)] = 1 2 R S X (H),

$\begin{align}\hat{\mathfrak{R}}_S(G)=& {\rm E}_{\sigma}\left[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i1_{h(x_i)\neq y_i}\right] \\ =&{\rm E}_{\sigma}\left[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i\frac{1-y_ih(x_i)}{2}\right] \\ =& \frac{1}{2}{\rm E}_{\sigma}\left[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_iy_ih(x_i)\right]\quad(\sigma_i的数学期望为0) \\ =& \frac{1}{2}{\rm E}_{\sigma}\left[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)\right]=\frac{1}{2}\mathfrak{R}_{S_{\mathcal{X}}}(H), \end{align}$ 这里我们使用了两个事实：

1h(xi)≠yi=(1−yih(xi))/2 $1_{h(x_i)\neq y_i}=(1-y_ih(x_i))/2$ ，以及对于固定的

yi∈{−1,+1} $y_i\in\{-1,+1\}$ ，

σi $\sigma_i$ 和

−yiσi $-y_i\sigma_i$ 是相同的分布 ( 都是在

{−1,+1} $\{-1,+1\}$ 上取值、期望为 0 的均匀分布 )。证毕。

值得注意的是，通过取两边的数学期望，这个引理意味着对于任意 $m\ge 1$ ， $\mathfrak{R}_m(G)=\frac{1}{2}\mathfrak{R}_m(H)$ 。这种 empirical Rademacher complexity 和 average Rademacher complexity 之间的关系可以用以引出二分类问题使用了假设集 $H$ 的 Rademacher complexity 的泛化上限。

定理 3.2 Rademacher complexity bounds ——二元分类

用 $H$ 表示一族从 $\{-1,+1\}$ 中取值的函数，用 $D$ 表示输入空间 $\mathcal{X}$ 上的分布。那么，对于任意 $\delta >0$ ，下列不等式在一个从 $D$ 中抽取 $m$ 个样本构成的样本集 $S$ 上，对于任意假设 $h \in H$ ，至少有 $1-\delta$ 的概率成立：

R (h) \leq a n d R (h) \leq R^(h) + R m (H) + log 1 δ 2 m - - - - - \sqrt R^(h) + R^m (H) + 3 log 1 δ 2 m - - - - - \sqrt . (3.17) (3.18)

$\begin{align}\\ R(h)\le &\hat R(h)+\mathfrak{R}_m(H)+\sqrt{\frac{\log{\frac{1}{\delta}}}{2m}}\tag{3.17} \\ and\quad R(h)\le &\hat R(h)+\hat{\mathfrak{R}}_m(H)+3\sqrt{\frac{\log{\frac{1}{\delta}}}{2m}}.\tag{3.18} \end{align}$
证明由定理 3.1 和引理 3.1 直接得证。要注意的是，根据上述定义的二元损失函数

g(z)=1h(xi)≠yi $g(z) = 1_{h(x_i)\neq y_i}$ ，定理 3.1 中的

E[g(z)] ${\rm E}[g(z)]$ 等于泛化误差

R(h) $R(h)$ ，同理，

1m∑mi=1g(zi) $\frac{1}{m}\sum_{i=1}^mg(z_i)$ 这一项等于经验误差

R^(h) $\hat R(h)$ 。

这个定理为二元分类提供了基于 Rademacher complexity 的泛化上限。注意 (3.18) 中的上限是只依赖于样本数据的：empirical Rademacher complexity $\hat{\mathfrak{R}}_m(H)$ 是关于某个从 $D$ 中抽取出来的特定样本集的函数。因此，只要我们能计算 $\hat{\mathfrak{R}}_m(H)$ ，这个上限完全可以算出。但是我们要怎样才能算出 empirical Rademacher complexity 呢？通过 $\sigma_i$ 和 $-\sigma_i$ 是相同分布这个事实，我们可以写出

R^m (H) = E σ [sup h \in H 1 m \sum i = 1 m - σ i h (x i)] = - E σ [inf h \in H 1 m \sum i = 1 m σ i h (x i)] .

$\hat{\mathfrak{R}}_m(H)=\mathop{{\rm E}}_{\sigma}\left[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_ih(x_i)\right]=-\mathop{{\rm E}}_{\sigma}\left[\inf_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)\right].$ 那么，对于固定的值

σ $\sigma$ ，计算

infh∈H1m∑mi=1σih(xi) $\inf_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)$ 等价于一个经验风险最小化问题 ( empirical risk minimization )，而这个问题对于某些假设集来说是计算上很复杂的问题 ( 因为需要把每一个假设都带进去试才能得到最小值，所以这是个 NP 难问题 )。因此，