大规模数据的PCA降维

本文主要是介绍大规模数据的PCA降维，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

20200810 -

0. 引言

最近在做的文本可视化的内容，文本处理的方法是利用sklearn的CountVer+Tf-idf，这样处理数据之后，一方面数据的维度比较高，另一方面呢，本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维，会很慢，而且pca也没有n_jobs来支持多线程工作。不过，我看到spark中已经支持的pca了，所以希望通过spark来实现这部分内容。

1. spark的PCA算法

1.1 官方使用示例

>>> from pyspark.ml.linalg import Vectors
>>> data = [(Vectors.sparse(5, [(1, 1.0), (3, 7.0)]),),
...     (Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),
...     (Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]
>>> df = spark.createDataFrame(data,["features"])
>>> pca = PCA(k=2, inputCol="features", outputCol="pca_features")
>>> model = pca.fit(df)
>>> model.transform(df).collect()[0].pca_features
DenseVector([1.648..., -4.013...])
>>> model.explainedVariance
DenseVector([0.794..., 0.205...])
>>> pcaPath = temp_path + "/pca"
>>> pca.save(pcaPath)
>>> loadedPca = PCA.load(pcaPath)
>>> loadedPca.getK() == pca.getK()
True
>>> modelPath = temp_path + "/pca-model"
>>> model.save(modelPath)
>>> loadedModel = PCAModel.load(modelPath)
>>> loadedModel.pc == model.pc
True
>>> loadedModel.explainedVariance == model.explainedVariance
True

上面的代码是spark的官方文档（2.4.4版本）的实例介绍；从中可以看出，对于PCA使用过程来说，没有什么不一样的。
其实我比较关注的是，假设，我开始的数据，更直接点说就是已经经过预处理的数据，他们现在是一个高维的向量，他们的数据类型是numpy.narray，这种形式的数据怎么传递到spark中，然后应用上面部分的代码。那么，比较关键的地方就是上面的data部分，这部分应该怎么处理。

1.2 个人使用方式

在谷歌搜索的时候，发现了某个代码[1]；他利用iris数据作为示例来进行讲解，下面来看看他具体的步骤。

1.2.1 加载数据

iris = load_iris()
X = iris['data']
y = iris['target']data = pd.DataFrame(X, columns = iris.feature_names)
dataset = spark.createDataFrame(data, iris.feature_names)
dataset.show(6)

上述代码的步骤如下：
1）加载iris数据
2）创建pandas的DF
3）创建spark的DF
也就是说，这个时候就创建了numpy与spark中df的联系。

1.2.2 将向量集中于一列

# specify the input columns' name and
# the combined output column's name
assembler = VectorAssembler(inputCols = iris.feature_names, outputCol = 'features')# use it to transform the dataset and select just
# the output column
df = assembler.transform(dataset).select('features')
df.show(6)
# output :
'''
+-----------------+
|         features|
+-----------------+
|[5.1,3.5,1.4,0.2]|
|[4.9,3.0,1.4,0.2]|
|[4.7,3.2,1.3,0.2]|
|[4.6,3.1,1.5,0.2]|
|[5.0,3.6,1.4,0.2]|
|[5.4,3.9,1.7,0.4]|
+-----------------+
only showing top 6 rows
'''

在之前的一篇文章《Spark机器学习实例》中也有这部分的操作，不过当时代码是这样的：

from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.linalg import Vectors
data = iris_data.rdd.map(lambda row: LabeledPoint(row[-1], Vectors.dense(row[:-1])))

本质上是一个道理，都是讲特征部分汇总到一个向量中。

1.2.3 向量归一化

scaler = StandardScaler(inputCol = 'features', outputCol = 'scaledFeatures',withMean = True,withStd = True
).fit(df)# when we transform the dataframe, the old
# feature will still remain in it
df_scaled = scaler.transform(df)
df_scaled.show(6)

这部分没什么可说的，就是归一化向量，然后应用于PCA。

1.2.4 使用PCA

n_components = 2
pca = PCA(k = n_components, inputCol = 'scaledFeatures', outputCol = 'pcaFeatures'
).fit(df_scaled)df_pca = pca.transform(df_scaled)
print('Explained Variance Ratio', pca.explainedVariance.toArray())
df_pca.show(6)

上面部分代码是做PCA的核心部分，通过这部分内容就可以得到相应的降维数据了。

1.2.5 取出降维后的数据

# not sure if this is the best way to do it
X_pca = df_pca.rdd.map(lambda row: row.pcaFeatures).collect()
X_pca = np.array(X_pca)

这部分代码应该可以直接使用key来获取某一列，不需要再用RDD

1.3 小节

关于这部分内容，关于PCA的使用没有什么多说的，只需要按照其接口说明传递参数然后获取相应的内容即可。关键部分是前期的预处理，怎么将数据弄成满足后续PCA处理形式的数据。
前面的代码应该就足够了，后续针对自己的数据来实践以下。

参考文章

[1]spark pca

这篇关于大规模数据的PCA降维的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

大规模数据的PCA降维

0. 引言

1. spark的PCA算法

1.1 官方使用示例

1.2 个人使用方式

1.2.1 加载数据

1.2.2 将向量集中于一列

1.2.3 向量归一化

1.2.4 使用PCA

1.2.5 取出降维后的数据

1.3 小节

参考文章

相关文章

MySQL 删除数据详解(最新整理)

MyBatisPlus如何优化千万级数据的CRUD

python实现对数据公钥加密与私钥解密

mysql中的数据目录用法及说明

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

SpringBoot中4种数据水平分片策略

Redis分片集群、数据读写规则问题小结

浅析如何保证MySQL与Redis数据一致性

Oracle 数据库数据操作如何精通 INSERT, UPDATE, DELETE

SQL Server修改数据库名及物理数据文件名操作步骤