Andrew Ng机器学习课程笔记--week8(K-meansPCA)

2024-01-25 08:40

本文主要是介绍Andrew Ng机器学习课程笔记--week8(K-meansPCA),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Unsupervised Learning
本周我们讲学习非监督学习算法,会学习到如下概念

  • 聚类(clustering)
  • PCA(Principal Componets Analysis主成分分析),用于加速学习算法,有时在可视化和帮助我们理解数据的时候会有难以置信的作用。

一、内容概要

  • Clustering
    • K-Means Algorithm
    • Optimization Objective
    • Random Initialization
    • Choosing The Number of Clusters
  • Dimensionality Reduction(降维)
    • Motivation
    • PCA(主成分分析)
    • Applying PCA

二、重点&难点

1. Clustering

1) K-Means Algorithm

首先需要知道的是无监督学习下,数据是没有标签的,所以可视化数据后是下面这样的效果(只有一种颜色)

9moxtctzk5.png

K-Means算法步骤如下:
1.随机分配聚类中心(cluster centroid)
假设我们知道数据可以分为两类(这样做为了方便讨论),所以我们随机分配两个聚类中心(如下图一个红色,一个蓝色)。
2.聚类分配
遍历每一个数据x计算出其离哪个中心点更近,更近的标上和那个中心点相同的颜色。

1620
3.移动聚类中心
完成步骤2后,计算每个聚类所有数据点的中心,该点即为新的聚类中心。

一般来说,求聚类中心点的算法你可以很简的使用各个点的(X,Y)坐标的平均值

1620
不过,另有三个求中心点的的公式:

参考深入浅出K-Means算法

1)Minkowski Distance公式——λ可以随意取值,可以是负数,也可以是正数,或是无穷大。

\[d_{ij}=\sqrt{ \sum_{k=1}^{n}|x_{ik} - y_{jk}|^λ }\]

2)Euclidean Distance公式——也就是第一个公式λ=2的情况

\[d_{ij}=\sqrt{ \sum_{k=1}^{n}|x_{ik} - y_{jk}|^2 }\]

3)CityBlock Distance公式——也就是第一个公式λ=1的情况

\[d_{ij}=\sum_{k=1}^{n}|x_{ik} - y_{jk}| \]

这三个公式的求中心点有一些不一样的地方,我们看下图(对于第一个λ在0-1之间)。


1620
1620
1620

(1)Minkowski Distance (2)Euclidean Distance (3) CityBlock Distance

上面这几个图的大意是他们是怎么个逼近中心的,第一个图以星形的方式,第二个图以同心圆的方式,第三个图以菱形的方式。


4.重复2,3步骤,直到收敛,即中心不再变化或变化范围达到设定阈值

总结起来就是:

1620
m:样本数据集的大小
\(c^{(i)}\):第i个数据\(x^{(i)}\)所属聚类的下标
\(μ_k\):第k个聚类中心点

2) Optimization Objective

是的,k-means也有优化目标函数,如下:

\[minJ_(c^{(1)},……c^{(m)},μ_1,……μ_k)=\frac{1}{m}\sum_{i=1}^{m}{||x^{(i)}-μ_{c^{(i)}}||^2}\]

3) Random Initialization

前面的步骤中都提到了随机初始化聚类中心,但是这样可能会得到局部最优点而不是全局最优,如下图所示:

ej11dnh2io.jpeg
所以为了解决这个问题,我们先需要重复多次的随机初始化,然后看最后得到的结果中是否有很多结果是相同的,如果有那么很可能就是全局最优解。
算法如下

tosb5cb91a.png

4) Choosing The Number of Clusters

本小节将讨论聚类个数K的如何选取。

  • Elbow Method(肘部原理)

ca1h5i3luo.png
如上图所示,我们可以通过计算不同k值所对应的损失函数的值,然后绘制成曲线,上面的曲线看上去就像是人的手臂,拐点(k=3)就是肘部,所以选择k=3是比较好的选择。

但是并不是所有时候都能得到上面那种比较理想的曲线,例如下面的曲线就不太好选择k值了。

vljp9zgr5c.png

  • 根据需求规定k
    上图中的光滑曲线不太适用于肘部原理,所以此时更好的办法是根据当前的需求来选择k值。以下面的数据为例,该数据记录了身高体重与衬衫大小的关系。

4kp9emvtrw.png
上图左边按照‘S,M,L’划分,右边按照'XS,S,M,L,XL'划分,这也不是为办法中的办法2333.

2. Dimensionality Reduction(降维)

1) Motivation

- 数据压缩

在面对数据冗余的时候或者数据维度过大的时候可以通过降维来实现对数据的压缩从而提高计算效率。
例如 2D→1D


7h5c03e1fj.jpg

3D→2D


guyupmjy8b.jpg

53y8vj5970.jpg

- 数据可视化

例如我们描述一个国家可以有50多种特征,但是想要可视化是不可能的,所以通过数据压缩后可以实现50D→2D,这样就能很好的看出各个国家之间的差距关系。

2) PCA

PCA Problem Formulation(提法、构想)

如下图是一些二维的点,现在需要将这些数据转化为一维数据点

vparvdrcu9.png

PCA的方法是

  • 寻找一条拟合的曲线(或平面)U
  • 然后得到每个原始数据点到U使映射面对应的映射点z
  • 计算各个点到该曲线(或平面)距离的总和(这里即是所有紫色线段长度总和).
  • 将距离总和优化到最短。

nwyxy7qatg.png

乍一看感觉这个线性回归很像啊?但是还是有很大的区别的,见下图

uaq47ji0zz.jpg
左边是线性回归,右边是PCA。

区别如下:

  • PCA优化的目的是使得所有点到降维后的平面的距离之后最小,所以是垂直的距离。
  • 线性回归关注的是实际值y预测值 y_ 大小之间的差距,优化的目的是使得预测值与实际值尽可能地接近或相等,所以是竖直的距离
PCA Algorithm

1. 数据预处理
在使用PCA算法之前需要对数据机型预处理,方法有两种:

  • Mean normalization
  • Feature scaling

2. PCA算法描述

  • 计算协方差矩阵Σ

\[Σ=\frac{1}{m}\sum_{i=1}^{m}(x^{(i)})(x^{(i)})^T\]

左边的Σ是希腊大写的σ,右边的∑是求和符号

注意\(x^{(i)}\)是(n,1)的向量,所以Σ是(n,n)的矩阵。

  • 计算矩阵Σ的特征向量U
    视频里介绍的是octave的用于计算特征值的函数有svd和eig,但是svd比eig更加稳定。
// Σ=sigma
sigma = 1\m * (X' * X)
[U,S,V] = svd(sigma)
  • 提取特征向量(\(U_{reduce}\)) nD→kD
    U也是(n,n)的矩阵,它就是我们需要的特征向量矩阵

1iir929cr0.png
假设原始特征向量是n维的,我们想转化成k维,只需要取U矩阵的前k列即可,我们记这前k列向量为\(U_{reduce}^{n×k}∈R^{n×n}\)

  • 将x向量转化成z向量

\[z = (U_{reduce})^T*x\]
\[ 维度表示: (R^{k×n}*R^{n×1}) = R^{k×1}\]

所以z是(k,1)向量。

上一步骤得到的\(U\)可以理解成一个映射面,这里的z就是各个原始数据点x对应映射面的映射点z

总结
1.数据预处理
2.计算协方差Σ: \(Σ=\frac{1}{m}\sum_{i=1}^{m}(x^{(i)})(x^{(i)})^T\)
3.计算特征向量U: \([U,S,V] = svd(sigma)\)
4.获取k维的\(U_{reduce}^{n×k}\)
5.计算z: \(z= (U_{reduce})^T*x\)

3) Applying PCA

1. Reconstruction from Compressed Representation(还原数据维度)

efsrt2yd6b.jpg
即已知降维后的向量z,如何还原成x?方法如下:

\[x = U_{reduce} * z\]

注意这里的还原并不是真正的还原成原始数据,因为这个公式得到的x是映射面U上的点,记为\(x_{approx}\),虽然有些误差,但是误差一般很小。

2. Choosing the number of Principle Components(选择k值大小)
  • 方法一
    前面已经提到过\(x_{approx}\)表示U映射面的点,而PCA优化目标就是最小化投影误差(projection error):

\[minE_p = min\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}-x_{approx}^{(i)}||^2\]

我们记原始数据离原点距离的平方的均值为

\[E_{total}=\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}||^2\]

选择k值的标准就是满足下面的条件

\[\frac{E_p }{E_{total}}=\frac{\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}-x_{approx}^{(i)}||^2}{\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}||^2}≤0.01\]

所以算法描述如下:

y6zcp8adhn.jpg
即k从1开始不断计算,知道满足小于等于0.01为止(也不一定非得是0.01,具体情况具体分析)。

  • 方法二
    这个方法要比上面一个方法更加简单
    前面提到过这个方法\([U,S,V] = svd(sigma)\),其中的s也是(n,n)的矩阵,如下图所示,是一个对角矩阵。

v00w6c59t4.jpg

之所以说这个方法比上一个简单,是因为下面两个式子可以等价计算。

gibv9h0c8o.jpg

\[\frac{\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}-x_{approx}^{(i)}||^2}{\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}||^2}=1-\frac{\sum_{i=1}^{k}s_{ii}}{\sum_{i=1}^{n}s_{ii}}≤0.01\]

S矩阵只需要计算一次即可,所以只需要将k从1递增,知道满足小于等于0.01即可求出k值。

3. Advice for Applying PCA

下面是使用PCA的一些误区

  • 为了防止过拟合而盲目使用PCA
    PCA的确能够压缩数据,提高计算速率,但是要知道的是什么是过拟合?
    过拟合的对象是y值,而PCA算法计算的对象不是y,而是x与\(x_{approx}\),所以为了防止过拟合,更好的办法是使用正则化方法。

  • 认为使用PCA优化数据准没错
    很多时候想都不想就先直接优化数据,然后再进行计算。视频中老师建议可以先用原始数据计算,看一下效果如何,然后再根据实际情况看是否需要使用PCA算法来压缩数据。







MARSGGBO原创





2017-8-12



转载于:https://www.cnblogs.com/marsggbo/p/7429274.html

这篇关于Andrew Ng机器学习课程笔记--week8(K-meansPCA)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642715

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件