Foundation of Machine Learning 笔记第五部分 (1) —— Rademacher Complexity 和 VC 维

本文主要是介绍Foundation of Machine Learning 笔记第五部分 (1) —— Rademacher Complexity 和 VC 维,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

注意事项:

  1. 这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。
  2. 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。
  3. 本文基本翻译自《Foundation of Machine Learning》的3.1节。

正文

机器学习中所用到的假设集一般是无穷大的。但是上一章中的样本复杂度上限并不能应付假设集无穷大的情况 (假设集无穷大会导致其不等式右侧也变得无穷大)。当假设集无限大时,我们甚至于不知道是否存在能够从有限的样本中高效地找出目标假设的算法。这一章将引出无穷大假设集下通用的样本复杂度上限。

为了引出这样一个样本复杂度上限,一个简单的想法是:把假设集中无穷多的假设分解为有限多类,然后通过上一章的方法求出样本复杂度上限。通过很多种技巧我们可以对假设集进行分解,而每个技巧对应着不同的描述假设集复杂度的概念。我们将使用的第一个复杂度概念是 Rademacher Complexity。它将帮助我们通过相对简单的证明引出学习保证,证明过程中将会使用 McDiarmid 不等式,这样能得到高质量的上限。但是,对于某些假设集,Rademacher Complexity 的计算复杂度是 NP-难的。因此,我们接下来会引入其他两个纯粹的组合概念:成长函数和 VC 维。我们首先把成长函数和 Rademacher Complexity 联系起来,然后找到成长函数的上限,而这个上限是与 VC 维的值相关的。VC 维往往更加容易去测量,或者可以更加容易地求出其上限。这样,我们就得到了一种基于 VC 维的泛化限制了。最后,我们会根据 VC 维给出假设集一致和不一致两种情况下的学习限制,这将证明 VC 维在学习中的重要地位。

3.1 Rademacher Complexity

我们将继续用 H H H 指代一个假设集,用 h h h 指代 H H H 中的一个元素。这一节的结论对于任意损失函数 L : Y × Y → R L:\mathcal{Y}\times \mathcal{Y}\to \mathbb{R} L:Y×YR 都成立。对于每一个 h h h,我们不明确地写出损失函数 L L L 是何种形式,而是定义一个从 ( x , y ) ∈ X × Y (x,y)\in\mathcal{X}\times\mathcal{Y} (x,y)X×Y 映射到 L ( h ( x ) , y ) L(h(x),y) L(h(x),y) 的函数 g g g。然后 G G G 定义为与 H H H 相关的损失函数族。

Rademacher Complexity 通过计算假设集拟合随机噪声的能力,量化了一族函数的丰富度。下面是 empirical Rademacher complexity 和 average Rademacher complexity 的定义。

定义3.1 Empirical Rademacher complexity

G G G 看做是一族从样本空间 Z Z Z 映射到 [ a , b ] [a,b] [a,b] 的函数,把 S = ( z 1 , … , z m ) S=(z_1,\dots,z_m) S=(z1,,zm) 看做是一个样本量固定的样本集,其中的每个样本都从 Z Z Z 中抽取。那么, G G G 关于样本集 S S S 的 empirical Rademacher complexity 定义为: R ^ S ( G ) = E σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m σ i g ( z i ) ] , (3.1) \hat{\mathfrak{R}}_S(G)=\mathop{{\rm E}}_\sigma \left[\sup_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)\right],\tag{3.1} R^S(G)=Eσ[gGsupm1i=1mσig(zi)],(3.1)这里 σ = ( σ 1 , … , σ m ) ⊤ \sigma={(\sigma_1,\dots,\sigma_m)}^\top σ=(σ1,,σm),其中 σ i \sigma_i σi 是从 { − 1 , + 1 } \{-1,+1\} {1,+1} 中取值的相互独立的均匀分布。称随机变量 σ i \sigma_i σi 为 Rademacher 变量。

g S = ( g ( z 1 ) , … , g ( z m ) ) ⊤ g_S = (g(z_1),\dots,g(z_m))^\top gS=(g(z1),,g(zm))。那么,empirical Rademacher complexity 可以写成 R ^ S ( G ) = E σ [ sup ⁡ g ∈ G σ ⋅ g S m ] . \hat{\mathfrak{R}}_S(G)=\mathop{{\rm E}}_{\sigma}\left[\sup_{g\in G}\frac{\sigma\cdot g_S}{m}\right]. R^S(G)=Eσ[gGsupmσgS]. 內积 σ ⋅ g S \sigma \cdot g_S σgS 量化了 g S g_S gS 和随机变量向量 σ \sigma σ 之间的相关性。因此,empirical Rademacher complexity 表示函数族 G G G 在样本集 S S S 上的输出与随机噪声的相关性的均值 。它描述了 G G G 的丰富度:越是丰富越是复杂的函数族 G G G 可以产生更多种不同的向量 g S g_S gS,他们就能与随机噪声拟合得更好( 我的理解:我在看到这里的时候有点懵了。我不严谨地把 ( 3.1 ) (3.1) (3.1) 的含义理解为, 对于给定的 G G G 和样本,如果给定一组随机噪声,我们测量 G G G 中与随机噪声拟合得最好的那个函数的拟合效果,这就代表了 G G G 对噪声的拟合能力。但是对仅仅一组噪声的拟合能力并不能说明 G G G 的丰富度有多高,起码不具说服力,所以要取 G G G 对多组噪声的拟合程度的均值 )。

定义 3.2 Rademacher complexity

D D D 看做是抽取样本的随机分布。对于任意整数 m > 1 m\gt 1 m>1 G G G 的 Rademacher complexity 就是它在分布 D D D 产生的所有样本集上的 empirical Rademacher complexity 的数学期望( 我的理解:empirical Rademacher complexity 描述了假设集对一组样本的表达的丰富度,而 Rademacher complexity 描述的是假设集对一个分布的表达的丰富度 ): R m ( G ) = E S ∼ D m [ R ^ S ( G ) ] . (3.2) \mathfrak{R}_m(G)=\mathop{\rm E}_{S\sim D^m}\left[ \hat {\mathfrak{R}}_S(G) \right].\tag{3.2} Rm(G)=ESDm[R^S(G)].(3.2)

在下面的与 Rademacher complexity 相关的一些不等式的证明当中,将会用到一个叫 McDiarmid 不等式的集中不等式 ( Concentration Inequality ),和凸优化中的 Jensen 不等式。书本的附录中提供了这些不等式的证明。

定理 D.3 McDiarmid 不等式

X 1 , … , X m ∈ X m X_1,\dots,X_m\in \mathcal{X}^m X1,,XmXm 为一个 m > 1 m\gt1 m>1 个独立随机变量组成的集合,并且假设存在 c 1 , … , c m > 0 c_1,\dots,c_m \gt 0 c1,,cm>0,使得某个函数 f : X m → R f:\mathcal{X}^m\to \mathbb{R} f:XmR 对所有的 i ∈ [ 1 , m ] i\in [1,m] i[1,m] 和随机变量 $\mathcal{X} $ 的任意样本点 x 1 , … , x m , x i ′ x_1,\dots,x_m,x'_i x1,,xm,xi 满足以下条件: ∣ f ( x 1 , … , x i , … , x m ) − f ( x 1 , … , x i ′ , … , x m ) ∣ ≤ c i . (D.12) |f(x_1,\dots,x_i,\dots,x_m)-f(x_1,\dots,x'_i,\dots,x_m)|\le c_i.\tag{D.12} f(x1,,xi,,xm)f(x1,,xi,,xm)ci.(D.12)我们用 f ( S ) f(S) f(S) 代替 f ( X 1 , … , X m ) f(X_1,\dots,X_m) f(X1,,Xm),那么对于所有的 ϵ > 0 \epsilon \gt 0 ϵ>0,下面的不等式成立:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ {\rm Pr}[f(S…我们使 δ 2 = exp ⁡ ( − 2 ϵ 2 ∑ i = 1 m c i 2 ) \frac{\delta}{2}=\exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc^2_i}\right) 2δ=exp(i=1mci22ϵ2),这么做的理由是方便下面相关定理的证明,我们用 δ \delta δ 来表示 ϵ \epsilon ϵ,解得 ϵ = ln ⁡ 2 δ 2 m \epsilon = \sqrt{\frac{\ln{\frac{2}{\delta}}}{2m}} ϵ=2mlnδ2 。那么我们能换一种说法表达 (D.13) 和 (D.14):对于任意 δ > 0 \delta >0 δ>0,下列不等式各自最多有 δ / 2 \delta/2 δ/2 的概率成立KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ f(S)\ge \mat…
证明 暂略,以后补充。

定理 B.4 Jensen 不等式

X X X 表示定义在一个非空凸集 C ⊆ R N C \subseteq \mathbb{R}^N CRN 中、数学期望 ${\rm E}[X] $ 有限的随机变量,定义 f f f 为定义在 C C C 上的一个可测凸函数。那么, 可以证明${\rm E}[X] $ 的值也将在 C C C 中、${\rm E}[f(X)] $ 有限、且下面的不等式成立: f ( E [ X ] ) ≤ E [ f ( X ) ] . f({\rm E}[X])\le {\rm E}[f(X)]. f(E[X])E[f(X)].
证明 暂略,以后补充。

基于 Rademacher complexity,我们准备要引出第一个泛化上限了。

定理 3.1

G G G 看作是一族从 Z Z Z 映射到 [ 0 , 1 ] [0,1] [0,1] 的函数。那么,对于任意 δ > 0 \delta \gt 0 δ>0,下列不等式对于所有 g ∈ G g \in G gG 至少有 1 − δ 1-\delta 1δ 的概率成立:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ &{\rm E}[g(z…证明 对于任意的样本集 S = ( z 1 , … , z m ) S=(z_1,\dots,z_m) S=(z1,,zm) 和任意的 g ∈ G g\in G gG,我们用 E ^ S [ g ] \hat{\rm E}_S[g] E^S[g] 指代 g g g 在样本集 S S S 上的均值: E ^ S [ g ] = 1 m ∑ i = 1 m g ( z i ) \hat{\rm E}_S[g]=\frac{1}{m}\sum_{i=1}^mg(z_i) E^S[g]=m1i=1mg(zi)。称 E ^ S [ g ] \hat{\rm E}_S[g] E^S[g] g g g 的经验均值 ( 我的理解:那么 E [ g ] {\rm E}[g] E[g] 表示假设 g g g 在样本空间中所有样本上输出的数学期望。书中没有明确定义它,为了便于说明,我定义它为 g g g 的“泛化均值”)。定义一个与样本集 S S S 相关的函数为 ( 我的理解:函数 Φ \Phi Φ 的含义是 g g g 的泛化均值与经验均值的差的上界 ): Φ ( S ) = sup ⁡ g ∈ G ( E [ g ] − E ^ S [ g ] ) . (3.5) \Phi (S)=\sup_{g \in G}({\rm E}[g]-\hat {\rm E}_S[g]).\tag{3.5} Φ(S)=gGsup(E[g]E^S[g]).(3.5)这里将通过对函数 Φ \Phi Φ 使用 McDiarmid 不等式证明定理。设 S S S S ′ S' S 为只有一个样本点不一致的两个样本集,比如认为 S S S 中的第 m m m 个点为 z m z_m zm,而 S ′ S' S 中的第 m m m 个点为 z m ′ z'_m zm。那么,由于上确界的差不大于差的上确界 ( 我的理解:可以用反证法证明,假设 sup ⁡ x f ( x ) − sup ⁡ x g ( x ) ≥ sup ⁡ x [ f ( x ) − g ( x ) ] \sup_xf(x) - \sup_xg(x) \ge \sup_x{[f(x)-g(x)]} supxf(x)supxg(x)supx[f(x)g(x)],且函数 g ( x ) g(x) g(x) 和函数 f ( x ) f(x) f(x) 有相同定义域,设 f ( x ′ ) = sup ⁡ x f ( x ) f(x')=\sup_xf(x) f(x)=supxf(x),那么有 f ( x ′ ) − g ( x ′ ) ≥ f ( x ′ ) − sup ⁡ x g ( x ) ≥ sup ⁡ x [ f ( x ) − g ( x ) ] f(x') - g(x') \ge f(x') - \sup_xg(x) \ge \sup_x{[f(x)-g(x)]} f(x)g(x)f(x)supxg(x)supx[f(x)g(x)]),这与上确界的定义相矛盾。虽然书中比较的是泛函之间的关系,但同样应该能由此类推),我们有 : Φ ( S ′ ) − Φ ( S ) ≤ sup ⁡ g ∈ G [ E ^ S [ g ] − E ^ S ′ [ g ] ] = sup ⁡ g ∈ G g ( z m ) − g ( z m ′ ) m ≤ 1 m . (3.6) \Phi(S')-\Phi(S) \le \sup_{g \in G}\left[\hat{\rm E}_S[g] - \hat{\rm E}_{S'}[g] \right]=\sup_{g\in G}{\frac{g(z_m)-g(z'_m)}{m}}\le \frac{1}{m}.\tag{3.6} Φ(S)Φ(S)gGsup[E^S[g]E^S[g]]=gGsupmg(zm)g(zm)m1.(3.6)通过同样的方法,我们也可以得到 Φ ( S ) − Φ ( S ′ ) ≤ 1 / m \Phi(S)-\Phi(S')\le 1/m Φ(S)Φ(S)1/m,因此有 ∣ Φ ( S ) − Φ ( S ′ ) ∣ ≤ 1 / m |\Phi(S)-\Phi(S')| \le 1/m Φ(S)Φ(S)1/m ( 我的理解:这也不难理解,同一个假设集 g g g 在两个只有一个元素相异的样本集上的经验均值相差不过 1 / m 1/m 1/m,那么这两种情况下的经验均值与泛化均值的差 Φ \Phi Φ 的差异也不超过 1 / m 1/m 1/m )。那么,通过 McDiarmid’s inequality,对于任意的 δ > 0 \delta \gt 0 δ>0,下面的不等式至少有 1 − δ / 2 1-\delta /2 1δ/2 的概率成立: Φ ( S ) ≤ E S [ Φ ( S ) ] + log ⁡ 2 δ 2 m . (3.7) \Phi(S)\le\mathop{{\rm E}}_S[\Phi(S)]+\sqrt{\frac{\log{\frac{2}{\delta}}}{2m}}.\tag{3.7} Φ(S)ES[Φ(S)]+2mlogδ2 .(3.7)接下来我们限制上述不等式右侧的上限:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ \mathop{{\rm…
下面展开证明上述式子。首先是 (3.8),为了书写方便我们把 S ′ S' S 换成 S = ( z 1 , … , z m ) S=(z_1,\dots,z_m) S=(z1,,zm),且省略定积分符号的上标和下标,也就是说虽然这里的积分符号都没上下标,但他们表示的不是不定积分,而是定积分:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ \mathop{\rm …
因为一个确定的函数的上确界是个常数,所以可以认为取上确界是个凸函数,那么不等式 (3.9) 就可以由 Jensen 不等式保证。在等式 (3.11) 中,我们引入了 Rademacher 变量 σ i \sigma_i σi,如定义 3.2 中所说的一样,是一组独立且在 − 1 , + 1 {-1,+1} 1,+1 上符合均匀分布的随机变量。加入这些随机变量不会改变 (3.10) 中的期望,因为:当 σ i = 1 \sigma_i=1 σi=1 时,这一项不变;当 σ i = − 1 \sigma_i=-1 σi=1 时,这一项的符号改变,也就是相当于把 z i z_i zi z i ′ z'_i zi 的位置交换,使得 z i z_i zi 变成 S ′ S' S 中的元素, z i ′ z_i' zi 变成 S S S 中的元素。因为我们最终要求他们在所有可能的 S S S S ′ S' S 上的数学期望,这种交换不会影响最终的期望。我们只是改变了对 z i z_i zi z i ′ z_i' zi 的积分顺序(2018年3月27日勘误:此处原文为"我们只是改变了对 z i z_i zi z i − 1 z_{i-1} zi1 的求导顺序"。觉得和内容不太一致,故做了修改)。(3.12) 由上确界函数的次可加性保证, sup ⁡ ( U + V ) ≤ sup ⁡ ( U ) + sup ⁡ ( V ) \sup(U+V)\le \sup(U)+\sup(V) sup(U+V)sup(U)+sup(V)。(3.2) 可由 Rademacher complexity 的定义、以及 σ i \sigma_i σi − σ i -\sigma_i σi 是相同的分布这个事实保证。

等式 (3.13) 中 R m ( G ) \mathfrak{R}_m(G) Rm(G) 的推导证明了等式 (3.3),虽然它用的是 δ \delta δ,而不是 δ / 2 \delta /2 δ/2。为了引出带 R ^ S ( G ) \hat{\mathfrak{R}}_S(G) R^S(G) 这一项的上限,通过定义 3.2,我们发现 S S S 中的一个点发生改变时 R ^ S ( G ) \hat {\mathfrak{R}}_S(G) R^S(G) 的值最多改变 1 / m 1/m 1/m。那么,再次使用 McDiarmid 不等式,下式至少有 1 − δ / 2 1-\delta/2 1δ/2 的概率成立: R m ( G ) ≤ R ^ S ( G ) + log ⁡ 2 δ 2 m . (3.14) \mathfrak{R}_m(G) \le \hat {\mathfrak{R}}_S(G) +\sqrt{\frac{\log{\frac{2}{\delta}}}{2m}}.\tag{3.14} Rm(G)R^S(G)+2mlogδ2 .(3.14)
最终,我们使用 union bound 联合不等式 (3.7) 和 (3.14),证得下式至少有 1 − δ 1-\delta 1δ 的概率成立: Φ ( S ) ≤ 2 R ^ S ( G ) + 3 log ⁡ 2 δ 2 m , (3.15) \Phi(S)\le2\hat {\mathfrak{R}}_S(G) +3\sqrt{\frac{\log{\frac{2}{\delta}}}{2m}},\tag{3.15} Φ(S)2R^S(G)+32mlogδ2 ,(3.15)该式符合 (3.4)。证毕。

PS

本节内容比较多,我分成两部分写了。下部分将在下一篇博客中写。

这篇关于Foundation of Machine Learning 笔记第五部分 (1) —— Rademacher Complexity 和 VC 维的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/970939

相关文章

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

VC网络协议

// PCControlDlg.cpp : 实现文件//#include "stdafx.h"#include "PCControl.h"#include "PCControlDlg.h"#include "afxdialogex.h"#ifdef _DEBUG#define new DEBUG_NEW#endif// 用于应用程序“关于”菜单项的 CAboutDlg 对话框#ifde

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi