【深度学习:t-SNE 】T 分布随机邻域嵌入

2024-01-28 23:52

本文主要是介绍【深度学习:t-SNE 】T 分布随机邻域嵌入,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【深度学习:t-SNE 】T 分布随机邻域嵌入

    • 降低数据维度的目标
    • 什么是PCA和t-SNE,两者有什么区别或相似之处?
      • 主成分分析(PCA)
      • t-分布式随机邻域嵌入(t-SNE)
    • 在 MNIST 数据集上实现 PCA 和 t-SNE
    • 结论

了解 t-SNE 的基本原理、与 PCA 的区别以及如何在 MNIST 数据集上应用 t-SNE

在本文中,您将了解到

  • t-SNE 与 PCA(主成分分析)的区别
  • 简单易懂地解释 t-SNE 的工作原理
  • 了解 t-SNE 可用的不同参数
  • 在 MNIST 上应用 t-SNE 和 PCA

在这里插入图片描述
如果数据集中有数百个特征或数据点,而您想在二维或三维空间中表示它们,该怎么办?

在保留数据集中最多信息的同时降低数据集维度的两种常用技术是

  • 主成分分析(PCA)
  • 分布式随机邻域嵌入(t-SNE)

降低数据维度的目标

  • 在低维表示中尽可能多地保留高维数据中存在的数据的重要结构或信息。
  • 在较低维度上提高数据的可解释性
  • 最大限度地减少由于降维而导致的数据信息丢失

什么是PCA和t-SNE,两者有什么区别或相似之处?

PCA 和 t-SNE 都是无监督降维技术。这两种技术都用于将高维数据可视化到低维空间。

主成分分析(PCA)

  • 一种用于特征提取和可视化的无监督确定性算法
  • 应用线性降维技术,其重点是在低维空间中保持不同点之间的距离。
  • 通过使用特征值保留数据中的方差,将原始数据转换为新数据。
  • PCA 影响异常值。

t-分布式随机邻域嵌入(t-SNE)

  • 一种无监督的随机算法,仅用于可视化
  • 应用非线性降维技术,其重点是在低维空间中保持非常相似的数据点靠近。
  • 使用学生 t 分布来计算低维空间中两点之间的相似度,从而保留数据的局部结构。t-SNE 使用重尾 Student-t 分布而不是高斯分布来计算低维空间中两点之间的相似度,这有助于解决拥挤和优化问题。
  • 异常值不会影响 t-SNE

T 分布式随机邻域嵌入 (t-SNE) 是一种用于可视化的无监督机器学习算法,由 Laurens van der Maaten 和 Geoffrey Hinton 开发。

t-SNE 如何运作?

步骤 1:查找高维空间中邻近点之间的成对相似度。

t-SNE 将数据点 xᵢ 和 xⱼ 之间的高维欧氏距离转换为条件概率 P(j|i)。

在这里插入图片描述

高维空间中的数据(作者提供的图片)

xᵢ 会根据以点 xᵢ 为中心的高斯分布下的概率密度比例选择 xⱼ 作为其邻居。

σi 是以数据点习为中心的高斯方差

一对点的概率密度与其相似度成正比。对于附近的数据点,p(j|i) 将相对较高,而对于相距较远的点,p(j|i) 将很小。

对高维空间中的条件概率进行对称化,得到高维空间中最终的相似度。

条件概率通过对两个概率求平均值来实现对称,如下所示。

在这里插入图片描述

对称条件概率

步骤2:根据高维空间中点的成对相似度,将高维空间中的每个点映射到低维映射。

低维地图将是 2 维或 3 维地图

在这里插入图片描述
yᵢ 和 yⱼ 是高维数据点 xᵢ 和 xⱼ 的低维对应项。

我们计算类似于以点 yᵢ 为中心的高斯分布下的 P(j]i) 的条件概率 q(j|i),然后对概率进行对称化。

步骤 3:使用基于 Kullback-Leibler 散度(KL 散度)的梯度下降找到一个低维数据表示,以最小化 Pᵢⱼ 和 qᵢⱼ 之间的不匹配

在这里插入图片描述

Pᵢ 表示点 xᵢ 在所有其他数据点上的条件概率分布。 Qᵢ 表示给定地图点 yᵢ 的所有其他地图点的条件概率分布

t-SNE 使用梯度下降优化低维空间中的点。

为什么使用 KL 散度?

当我们最小化 KL 散度时,它使得 qᵢⱼ 在物理上与 Pᵢⱼ 相同,因此高维空间中的数据结构将与低维空间中的数据结构相似。

基于KL散度方程,

  • 如果 Pᵢⱼ 很大,那么我们需要很大的 qᵢⱼ 值来表示具有更高相似度的局部点。
  • 如果 Pᵢⱼ 很小,那么我们需要较小的 qᵢⱼ 值来表示相距较远的局部点。

步骤 4:使用 Student-t 分布计算低维空间中两点之间的相似度。

t-SNE 使用具有一个自由度的重尾 Student-t 分布来计算低维空间中两点之间的相似度,而不是高斯分布。

T-分布创建了低维空间中点的概率分布,这有助于减少拥挤问题。

如何在数据集上应用 t-SNE?

在用 python 编写代码之前,我们先了解一下可以使用的 TSNE 的一些关键参数

n_components:嵌入空间的维度,这是我们希望将高维数据转换为的较低维度。对于二维空间,默认值为 2。

Perplexity:困惑度与 t-SNE 算法中使用的最近邻居的数量有关。更大的数据集通常需要更大的困惑度。困惑度的值可以在 5 到 50 之间。默认值为 30。

n_iter:优化的最大迭代次数。应至少为 250,默认值为 1000

Learning_rate:t-SNE 的学习率通常在 [10.0, 1000.0] 范围内,默认值为 200.0。

在 MNIST 数据集上实现 PCA 和 t-SNE

我们将使用 sklearn.decomposition.PCA 应用 PCA,并在 MNIST 数据集上使用 sklearn.manifold.TSNE 实现 t-SNE。

加载 MNIST 数据

导入所需的库

import time
import numpy as np
import pandas as pd

获取 MNIST 训练和测试数据并检查训练数据的形状

(X_train, y_train) , (X_test, y_test) = mnist.load_data()
X_train.shape

在这里插入图片描述

创建一个包含多个图像和图像中的像素数的数组,并将 X_train 数据复制到 X

X = np.zeros((X_train.shape[0], 784))
for i in range(X_train.shape[0]):X[i] = X_train[i].flatten()

打乱数据集,取出 10% 的 MNIST 训练数据并将其存储在数据框中。

X = pd.DataFrame(X)
Y = pd.DataFrame(y_train)
X = X.sample(frac=0.1, random_state=10).reset_index(drop=True)
Y = Y.sample(frac=0.1, random_state=10).reset_index(drop=True)
df = X

数据准备好后,我们可以应用PCA和t-SNE。

在 MNIST 数据集上应用 PCA

使用 sklearn.decomposition 中的 PCA 库应用 PCA。

from sklearn.decomposition import PCA
time_start = time.time()
pca = PCA(n_components=2)
pca_results = pca.fit_transform(df.values)
print ('PCA done! Time elapsed: {} seconds'.format(time.time()-time_start))

在这里插入图片描述
PCA 生成两个维度,主成分 1 和主成分 2。将两个 PCA 成分与标签一起添加到数据框中。

pca_df = pd.DataFrame(data = pca_results, columns = ['pca_1', 'pca_2'])
pca_df['label'] = Y

仅在可视化时才需要该标签。

绘制 PCA 结果

fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = [0,1,2,3,4,5,6,7,8,9]
colors=['yellow', 'black', 'cyan', 'green', 'blue', 'red', 'brown','crimson', 'gold', 'indigo']
for target, color in zip(targets,colors):indicesToKeep = pca_df['label'] == targetax.scatter(pca_df.loc[indicesToKeep, 'pca_1'], pca_df.loc[indicesToKeep, 'pca_2'], c = color, s = 50)
ax.legend(targets)
ax.grid()

在这里插入图片描述

在 MNIST 数据集上应用 t-SNE

导入 t-SNE 和可视化所需的库

import time
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
import matplotlib.patheffects as PathEffects
%matplotlib inline

首先使用默认参数创建 TSNE 实例,然后将高维图像输入数据拟合到嵌入空间中,并使用 fit_transform 返回转换后的输出。

图像数据的维度应为 (n_samples, n_features) 形状

time_start = time.time()
tsne = TSNE(random=0)
tsne_results = tsne.fit_transform(df.values)
print ('t-SNE done! Time elapsed: {} seconds'.format(time.time()-time_start))

将标签添加到数据框中,并且仅在绘图期间使用它来标记集群以进行可视化。

df['label'] = Y

数据可视化功能

def plot_scatter(x, colors):# choose a color palette with seaborn.num_classes = len(np.unique(colors))palette = np.array(sns.color_palette("hls", num_classes))print(palette)# create a scatter plot.f = plt.figure(figsize=(8, 8))ax = plt.subplot(aspect='equal')sc = ax.scatter(x[:,0], x[:,1],  c=palette[colors.astype(np.int)], cmap=plt.cm.get_cmap('Paired'))plt.xlim(-25, 25)plt.ylim(-25, 25)ax.axis('off')ax.axis('tight')
# add the labels for each digit corresponding to the labeltxts = []
for i in range(num_classes):
# Position of each label at median of data points.
xtext, ytext = np.median(x[colors == i, :], axis=0)txt = ax.text(xtext, ytext, str(i), fontsize=24)txt.set_path_effects([PathEffects.Stroke(linewidth=5, foreground="w"),PathEffects.Normal()])txts.append(txt)
return f, ax, sc, txts

可视化 MNIST 数据集的 -SNE 结果

plot_scatter( tsne_results, df['label'])

在这里插入图片描述

尝试使用不同的参数值并观察不同的绘图

不同困惑值的可视化

在这里插入图片描述
n_iter 不同值的可视化

在这里插入图片描述
我们可以看到,从 t-SNE 图生成的聚类比使用 PCA 生成的聚类更加明确。

  • PCA 是确定性的,而 t-SNE 不是确定性的并且是随机的。
  • t-SNE 尝试仅映射局部邻居,而 PCA 只是我们初始协方差矩阵的对角旋转,特征向量表示并保留全局属性

结论

PCA和t-SNE是两种常见的降维方法,它们使用不同的技术将高维数据降维为可以可视化的低维数据。

这篇关于【深度学习:t-SNE 】T 分布随机邻域嵌入的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/655176

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个