本文主要是介绍Spark Mllib数据挖掘入门十一——综合案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本文主要研究一个较为基础的、经典的数据挖掘任务,包括数据的预处理、数据的分析性挖掘和多种MLlib算法的使用。
具体目标是研究不同的鸢尾花的生长分布,以及种类的判定方法,其中会使用到回归分析方法以及决策树方法,这些都是现实中常用的数据挖掘方法。
1.建模说明
不同种类的鸢尾花有着不同的特征外貌,相同一类的鸢尾花有不同的特征,而不同类的鸢尾花可能会有着相同的特征,因此研究其分类并对其做出预测以提高采集分类的准确率是很有必要的。
鸢尾花数据集是由杰出的统计学家R.A.Fisher在20世纪30年代中期创建的,它是公认的、用于数据挖掘的最著名的数据集。
2.数据预处理和分析
在正式对数据进行分类之前,需要对数据进行统计,删除一些具有
明显偏离值较大的数据,并对其进行相关系数和距离计算。
1) 微观分析——均值与方差的对比分析
由于所有的数据都在一个统计表中,可以将其取出做成独立的数据集。
2) 宏观分析——不同种类特性的长度计算
距离趋势不同从而不同的特性距离侧重点也是不尽相同,这点在决策树创建时需要认真对待。
3)去除重复项——相关系数的确定
对一些数据问题的分析中,其数据的产生是带有一定的相关性,例如某个地区供水量和用水量呈现出一个拟合度较好的线性关系(损耗忽略不计)。对它进行分析的时候,往往只需要分析一个变量即可。
不但可以对相同类别植物的不同特性进行相关性分析,还可以对不同类别植物的相同特性进行分析。
相关分析可以发现相同类别的萼片长和萼片宽具有比较高的相关系数,而花瓣的长宽具有明显的不相关性。不同种类的同种特性之间,只有很低的相关性(小于0.1),因此可以认定不同种类的同种特性不具有相关性。
通过对数据集进行相关分析,可以很好地掌握数据的分布规律和趋势。
3.长与宽之间的关系——数据集的回归分析
1)使用线性回归分析长与宽之间的关系
萼片长和萼片宽呈现一定的相关性,因此可以说,随着叶片宽度的增加,长度也呈现出一定的变化。
如果需要对此回归方程进行验证,那么最简单的一个办法就是返回计算相关的变量,判断其拟合程度。这里可以使用MLlib自带的均方误差(MSE)判断方法对其进行判断。
2)使用逻辑回归分析长与宽之间的关系
萼片长和萼片宽不存在绝对的线性比较关系,因此在对其进行回归分析的时候,可以选择另外一种回归分析方法,即逻辑回归。
本例中使用逻辑回归后,均方误差有所升高。究其原因可能是在本案例分析中,回归主要是一元为主,而逻辑回归更胜于使用在多元线性回归的分析中。
把两个或两个以上定距或定比例的数量关系用函数形式表示出来,就是回归分析要解决的问题。
经过回归分析,可以清楚地看到,不同特性之间有着一定的相互依赖性,这可能与植物的特性有关,毕竟同样的植物其生长规律具有一致性。
4.使用分类和聚类对鸢尾花数据集进行处理
1)使用聚类分析对数据集进行聚类处理
聚类分析的最大特点就是没有必然性,可能每次聚类处理的结果都不尽相同。
使用Kmeans算法进行聚类分析。
还可以使用高斯聚类器对数据进行聚类。
2)使用分类分析对数据集进行分类处理
分类器主要选择贝叶斯分类器。
5.最终的判定——决策树测试
决策树是一种常用的数据挖掘方法,它用来研究特征数据的“信息熵”的大小,从而确定在数据决策过程中哪些数据起决定作用。它使得决策程序在完全没有人工干扰的情况下自主地对数据进行分类,这点极大地方便了大数据的决策与分类的自动化处理。
当数据量较大的时候,随机雨林是一个能够充分利用分布式集群的决策树算法。
这篇关于Spark Mllib数据挖掘入门十一——综合案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!