本文主要是介绍Spark MLlib Statistics统计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1、Spark MLlib Statistics统计
Spark Mllib 统计模块代码结构如下:
1.1 列统计汇总
计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。
//读取数据,转换成RDD[Vector]类型
val data_path = "/home/jb-huangmeiling/sample_stat.txt"
val data = sc.textFile(data_path).map(_.split("\t")).map(f => f.map(f => f.toDouble))
val data1 = data.map(f => Vectors.dense(f))
//计算每列最大值、最小值、平均值、方差值、L1范数、L2范数
val stat1 = Statistics.colStats(data1)
stat1.max
stat1.min
stat1.mean
stat1.variance
stat1.normL1
这篇关于Spark MLlib Statistics统计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!