机器学习理论 | 周志华西瓜书 第十章:降维与度量学习

2024-04-10 23:48

本文主要是介绍机器学习理论 | 周志华西瓜书 第十章:降维与度量学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第十章 降维与度量学习

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


10.1 k近邻学习

1、描述
常用的监督学习方法
工作机制:给定测试集,基于某距离度量找出最靠近的k个样本,基于k个邻居的信息预测

  • 分类——投票法
  • 回归——平均法

懒惰学习的代表

2、懒惰学习与急切学习

  • 懒惰学习(lazy study):没有显式训练过程,仅把样本保存,训练时间无开销,待收到测试样本后再进行处理
  • 急切学习(eager learning):在训练阶段就对样本进行学习处理的方法

3、重要参数:k、距离计算方式在这里插入图片描述

4、结论:最近邻分类器的泛化错误率不超过贝叶斯最优分类的错误率的两倍
* 证明过程:在这里插入图片描述

5、重要假设
密度采样(dense sample):任意测试样本x附近任意小的距离范围内总能找到一个训练样本(训练样本的采样密度足够大)

10.2 低维嵌入(embedding)

1、问题
密集采样假设在现实任务中通常很难满足
维数灾难(dimension curse):高维时样本稀疏、距离计算困难等问题

2、降维(维数约简)

  • 1)简述
    缓解维数灾难:特征选择/降维
    定义:通过某种数学变换将原始高维属性空间转变为一个低维子空间(在此样本密度大幅提高,距离计算容易)
  • 2)经典降维方法
    • 多维缩放(Multiple Dimensional Scaling, MDS)
      • 目标:让原始空间中样本之间的距离在低维空间中得以保持
      • 假定:m个样本在原始空间的距离矩阵为 D ∈ R m ∗ m \bm D\in\mathbb{R}^{m*m} DRmm,其第i行j列的元素 d i s t i j dist_{ij} distij为样本 x i \bm x_i xi x j \bm x_j xj的距离。我们的目标是获得样本在d’维空间的表示 Z ∈ R d ′ ∗ m , d ′ ≤ d \bm Z\in\mathbb{R}^{d'*m},d'≤d ZRdmdd,且任两个样本在d’维空间中的欧氏距离等于原始空间中的距离,即 ∣ ∣ z i − z j ∣ ∣ = d i s t i j ||\bm z_i-\bm z_j||=dist_{ij} zizj=distij
      • 公式推导:
        降维后样本的内积矩阵在这里插入图片描述
        令将为后的降本Z被中心化在这里插入图片描述
        设定在这里插入图片描述
        结论公式在这里插入图片描述
      • 结论:可通过降维前后保持不变的距离矩阵D求内积矩阵B
      • 对B做特征值分解:尽可能接近而不必完全相等
      • MDS算法在这里插入图片描述
    • 主成分分析:线性变换方法(最简单)
    • 核化线性降维:非线性变换方法
  • 3)对降维效果评估:比较降维前后学习器的性能

10.3 主成分分析

1、概述

  • 起源:对于正交属性空间中的样本点如何用一个超平面对所有样本进行恰当表达
  • 超平面性质
    最近重构性:样本点到这个超平面的距离都足够近
    最大可分性:样本点在这个超平面上的投影尽可能分开

2、两种等价推导

  • 1)从最近重构性来推导
    假定在这里插入图片描述
    原样本点与基于投影重构的样本点之间的距离在这里插入图片描述
    主成分分析的优化目标
    m i n W − t r ( W T X X T W ) min_{\bm W}\ -tr(\bm{W^TXX^TW}) minW tr(WTXXTW)
    s . t . W T W = I . s.t.\ \bm{W^TW=I}. s.t. WTW=I.
  • 2)从最大可分性推导
    样本点 x i \bm x_i xi在新空间中超平面上的投影: W T x i \bm{W^Tx_i} WTxi(应该使得投影后样本点的方差最大化)在这里插入图片描述
    投影后的样本点方差: ∑ i W T x i x i T W \sum_i\bm{W^Tx_ix_i^TW} iWTxixiTW
    主成分分析的优化目标:
    m a x W t r ( W T X X T W ) max_{\bm W}\ tr(\bm{W^TXX^TW}) maxW tr(WTXXTW)
    s . t . W T W = I . s.t.\ \bm{W^TW=I}. s.t. WTW=I.
  • 3)等价性分析
    拉格朗日乘子法: X X T W = λ W \bm{XX^TW=\lambda W} XXTW=λW
    PCA算法在这里插入图片描述

3、降维后维数空间的维数d的选择
1)用户实现制定
2)通过在d’值不同的地位空间中对k近邻分类器进行交叉验证选取
3)从重构的角度设置一个重构阈值(如t=95%),选取使得下式成立的最小d’值:
∑ i = 1 d ′ λ i ∑ i = 1 d λ i ≥ t . \frac{\sum_{i=1}^{d'}\lambda_i}{\sum_{i=1}^d\lambda_i}≥t. i=1dλii=1dλit.

4、降维导致的结果

  • 对应于最小的d-d’个特征值的特征向量被舍弃
  • 样本的采样密度增大
  • 一定程度上起到去噪的效果

10.4 核化线性降维

1、问题
线性降维方法的空间函数映射为线性,然而可能要非线性映射才能找到恰当的低维嵌入

2、解决方案:核主成分分析(Kernelized PCA, KPCA)

  • 非线性降维方法常用,基于核技巧对先行将为方法进行核化(kernelized)
  • 推导过程
    假定将高维特征空间中把数据投影到由W确定的平面上(欲求解式):
    ( ∑ i = 1 m z i z i T ) W = λ W (\sum_{i=1}^mz_iz_i^T)\bm W=\lambda\bm W (i=1mziziT)W=λW
    可知:在这里插入图片描述
    公式变换: ( ∑ i = 1 m ϕ ( x i ) ϕ ( x i ) T ) W = λ W (\sum_{i=1}^m\phi(\bm x_i)\phi(\bm x_i)^T)\bm W=\lambda \bm W (i=1mϕ(xi)ϕ(xi)T)W=λW
    公式变换: W = ∑ i = 1 m ϕ ( x i ) α i \bm W=\sum_{i=1}^m\phi(\bm x_i)\bm\alpha_i W=i=1mϕ(xi)αi
    引入核函数: K ( x i , x j ) = ϕ ( x i ) T ϕ ( x j ) \mathcal{K}(\bm x_i,\bm x_j)=\phi(\bm x_i)^T\phi(\bm x_j) K(xi,xj)=ϕ(xi)Tϕ(xj)
    带入化简:在这里插入图片描述
    投影后的第j维坐标在这里插入图片描述

10.5 流形学习

1、概述
一类借鉴了拓扑流行概念的降维方法
在局部具有欧式空间的性质,能用欧式距离来进行距离计算

2、等度量映射(Isometric Mapping, Isomap)

  • 目的:保持近邻样本之间的距离
  • 测地线(geodesic)距离:高维空间两点之间的本真距离
  • 测地线距离计算
    1.利用流形在局部上与欧式空间同胚性质,对每个点基于欧氏距离找出其近邻点
    2.建立一个近邻连接图,图中近邻点之间存在连接,而非近邻点之间不存在连接
    3.问题转化为计算近邻连接图上两点之间的最短路径(用Dijkstra/Floyd)
  • Isomap算法(仅得到了训练样本在低维空间的坐标)在这里插入图片描述
  • 将新样本映射到低维空间权宜之计:将训练样本的高维空间坐标作为输入、低维空间坐标作为输出,训练一个回归学习器来对新样本的低维空间坐标进行预测
  • 对近邻图构建常用的两种做法:指定近邻点个数、指定距离阈值

3、局部线性嵌入(Locally Linear Embedding, LLE)

  • 目的:保持领域内样本之间的线性关系在这里插入图片描述
    x i = w i j x j + w i k x k + w i l x l \bm x_i=w_{ij}\bm x_j+w_{ik}\bm x_k+w_{il}\bm x_l xi=wijxj+wikxk+wilxl
  • LLE算法解释
    目标函数限制条件解出线性重构系数:求解xi对应的低维空间坐标:设置:重写算式可通过特征值分解求解
    在这里插入图片描述
  • LLE算法在这里插入图片描述

10.6 度量学习

1、基本动机

  • 降维目的
    找到一个合适的低维空间
    在空间中进行学习能比原始空间性能更好
  • 直接尝试学习出一个适合的距离度量:
    每个空间对应了在样本属性上定义的一个距离度量
    寻找合适的空间,实质上就是在寻找一个合适的距离度量

2、距离度量表达式推广

  • 对两个d’维样本 x i \bm x_i xi x j \bm x_j xj,平方欧式距离:
    d i s t e d 2 ( x i , x j ) = ∣ ∣ x i − x j ∣ ∣ 2 2 = d i s t i j , 1 2 + . . . + d i s t i j , d 2 dist_{ed}^2(\bm x_i,\bm x_j)=||\bm x_i-\bm x_j||_2^2=dist_{ij,1}^2+...+dist_{ij,d}^2 disted2(xi,xj)=xixj22=distij,12+...+distij,d2
  • 假定不同属性重要性不同(引入属性权重):
    d i s t w e d 2 ( x i , x j ) = ∣ ∣ x i − x j ∣ ∣ 2 2 = w 1 ∗ d i s t i j , 1 2 + . . . + w d ∗ d i s t i j , d 2 = ( x i − x j ) T W ( x i − x j ) dist_{wed}^2(\bm x_i,\bm x_j)=||\bm x_i-\bm x_j||_2^2=w_1*dist_{ij,1}^2+...+w_d*dist_{ij,d}^2=\bm{(x_i-x_j)^TW(x_i-x_j)} distwed2(xi,xj)=xixj22=w1distij,12+...+wddistij,d2=(xixj)TW(xixj)
  • 将W替换为普通半正定对称阵M得到马氏距离:
    d i s t m a h 2 ( x i , x j ) = ( x i − x j ) T M ( x i − x j ) = ∣ ∣ x i − x j ∣ ∣ M 2 dist_{mah}^2(\bm x_i,\bm x_j)=\bm{(x_i-x_j)^TM(x_i-x_j)}=||\bm x_i-\bm x_j||_M^2 distmah2(xi,xj)=(xixj)TM(xixj)=xixjM2

3、学习M而设置的目标

  • 提高近邻分类器的性能:将M直接嵌入到近邻分类器的评价指标,优化该指标求得M
  • 例子:近邻成分分析(Neighbourhood Component Analysis, NCA)
    • 通常:多数投票法(领域中样本投1票,外0票)
    • 替换为概率投票法
      对任意样本的 x j \bm x_j xj,对 x i \bm x_i xi分类结果的影响概率:
      以留一法(LOO)正确率最大为目标,xi的LOO正确率:整个样本集LOO正确率:带入后,NCA优化目标:
      求解(随机梯度下降)可得最大化近邻分类器LOO正确率的距离度量矩阵M

4、在度量中引入领域知识

  • 必连(must-link)约束: ( x i , x j ) ∈ M (\bm x_i,\bm x_j)\in\mathcal{M} (xi,xj)M 样本相似
  • 勿连(cannot-link)约束: ( x i , x j ) ∈ C (\bm x_i,\bm x_j)\in\mathcal{C} (xi,xj)C 样本不相似
  • 希望相似样本距离小,不相似距离大:求解凸优化问题获得适当的度量矩阵M
    m i n M ∑ ( x i , x j ) ∈ M ∣ ∣ x i − x j ∣ ∣ M 2 min_{\bm M}\ \sum_{(\bm x_i,\bm x_j)\in\mathcal{M}}||\bm x_i-\bm x_j||_{\bm M}^2 minM (xi,xj)MxixjM2
    s . t . ∑ ( x i , x j ) ∈ C ∣ ∣ x i − x k ∣ ∣ M 2 ≥ 1 , M ≥ 0 s.t.\ \sum_{(\bm x_i,\bm x_j)\in\mathcal{C}}||\bm x_i-\bm x_k||_{\bm M}^2≥1,\bm M≥0 s.t. (xi,xj)CxixkM21,M0

这篇关于机器学习理论 | 周志华西瓜书 第十章:降维与度量学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/892497

相关文章

51单片机学习记录———定时器

文章目录 前言一、定时器介绍二、STC89C52定时器资源三、定时器框图四、定时器模式五、定时器相关寄存器六、定时器练习 前言 一个学习嵌入式的小白~ 有问题评论区或私信指出~ 提示:以下是本篇文章正文内容,下面案例可供参考 一、定时器介绍 定时器介绍:51单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 定时器作用: 1.用于计数系统,可

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

[word] word设置上标快捷键 #学习方法#其他#媒体

word设置上标快捷键 办公中,少不了使用word,这个是大家必备的软件,今天给大家分享word设置上标快捷键,希望在办公中能帮到您! 1、添加上标 在录入一些公式,或者是化学产品时,需要添加上标内容,按下快捷键Ctrl+shift++就能将需要的内容设置为上标符号。 word设置上标快捷键的方法就是以上内容了,需要的小伙伴都可以试一试呢!

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

硬件基础知识——自学习梳理

计算机存储分为闪存和永久性存储。 硬盘(永久存储)主要分为机械磁盘和固态硬盘。 机械磁盘主要靠磁颗粒的正负极方向来存储0或1,且机械磁盘没有使用寿命。 固态硬盘就有使用寿命了,大概支持30w次的读写操作。 闪存使用的是电容进行存储,断电数据就没了。 器件之间传输bit数据在总线上是一个一个传输的,因为通过电压传输(电流不稳定),但是电压属于电势能,所以可以叠加互相干扰,这也就是硬盘,U盘

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa