Python——常用数据降维算法应用

本文主要是介绍Python——常用数据降维算法应用，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

随着数据的积累，数据的维度越来越高，高维的数据在带来更多信息的同时，也带来了信息冗余、计算困难等问题，所以对数据进行合理的降维，并保留主要信息非常重要。这些问题主要可以通过主成分分析及相关的降维算法来解决。

一些经典的降维算法有：主成分分析、MSD降维、t-SNE降维等。

1: 数据准备

将会使用手写体数字数据，该数据一共有1797个样本，每个图像包含64个像素值，数据导入后的情况如下所示：

## 导入数据,该数据有1797个样本，每个图像包含64个像素值
digit = pd.read_csv("data/chap06/digit.csv",header=None)
## 获取待使用的数据
digitX = digit.values[:,0:-1]/16
digitY = digit.values[:,64]
digit

2: 主成分分析数据降维

主成分分析可以通过Sklearn库中的PCA来完成，下面的程序对前面的手写数字数据集，使用主成分分析将其降维到64维，然后可视化分析每个主成分的解释方差，以及主成分的累计方差贡献率，运行程序后可获得可视化图像。

## 对数据进行主成分降维分析
pca = PCA(n_components = 64,  # 获取的主成分数量random_state = 123) # 设置随机数种子，保证结果的可重复性
## 对数据进行降维
digitX_pca = pca.fit_transform(digitX)## 可视化分析每个主成分的解释方差和解释方差所占百分比
x = np.arange(digitX_pca.shape[1])+1
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.plot(x,pca.explained_variance_,"r-o")
plt.xlabel("主成分个数")
plt.ylabel("解释方差")
plt.title("解释方差变化情况")
plt.subplot(1,2,2)
plt.plot(x,np.cumsum(pca.explained_variance_ratio_),"b-s")
plt.xlabel("主成分个数")
plt.ylabel("解释方差")
plt.title("累计解释方差贡献率变化情况")
plt.tight_layout()
plt.show()

可以发现：数据中的在大约20个主成分之后，每个主成分的解释方差已经接近于0，而且前20个主成分的原始数据解释能力超过了百分之90，说明从主成分特征中选取其中的前20个即可代表该数据。

针对主成分数据降维的效果，可以使用其前3个主成分，利用可视化的方式，查看算法的数据降维效果。

3: 流形学习——等距映射

流形学习中的等距嵌入降维算法，可以通过Isomap()来完成，下面的程序是通过流形学习，将手写数字数据集降维到3维空间中，然后使用可视化的方式绘制降维后的3D散点图。

## 流形学习将数据降维到3维空间中
isom = Isomap(n_neighbors=5, n_components=3) 
digitX_isom = isom.fit_transform(digitX)
## 在三维空间中可视化前三个特征数据分布散点图
plotdata3D(digitX_isom,digitY,"流形学习特征")

4: t-SNE数据降维

t-SNE降维算法，可以通过TSNE()来完成，下面的程序是通过t-SNE降维算法，将手写数字数据集降维到3维空间中，然后使用可视化的方式绘制降维后的3D散点图。

## t-SNE将数据降维到3维空间中
tsne = TSNE(n_components=3, perplexity=20,early_exaggeration=5, random_state=123) 
digitX_tsne = tsne.fit_transform(digitX)
## 在三维空间中可视化前三个特征数据分布散点图
plotdata3D(digitX_tsne,digitY,"TSNE特征")