Spark Mllib数据挖掘入门十一——综合案例

2024-06-02 14:08

本文主要是介绍Spark Mllib数据挖掘入门十一——综合案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文主要研究一个较为基础的、经典的数据挖掘任务,包括数据的预处理、数据的分析性挖掘和多种MLlib算法的使用。
具体目标是研究不同的鸢尾花的生长分布,以及种类的判定方法,其中会使用到回归分析方法以及决策树方法,这些都是现实中常用的数据挖掘方法。

1.建模说明

不同种类的鸢尾花有着不同的特征外貌,相同一类的鸢尾花有不同的特征,而不同类的鸢尾花可能会有着相同的特征,因此研究其分类并对其做出预测以提高采集分类的准确率是很有必要的。
鸢尾花数据集是由杰出的统计学家R.A.Fisher在20世纪30年代中期创建的,它是公认的、用于数据挖掘的最著名的数据集。

2.数据预处理和分析

在正式对数据进行分类之前,需要对数据进行统计,删除一些具有
明显偏离值较大的数据,并对其进行相关系数和距离计算。

1) 微观分析——均值与方差的对比分析
由于所有的数据都在一个统计表中,可以将其取出做成独立的数据集。
2) 宏观分析——不同种类特性的长度计算
距离趋势不同从而不同的特性距离侧重点也是不尽相同,这点在决策树创建时需要认真对待。
3)去除重复项——相关系数的确定
对一些数据问题的分析中,其数据的产生是带有一定的相关性,例如某个地区供水量和用水量呈现出一个拟合度较好的线性关系(损耗忽略不计)。对它进行分析的时候,往往只需要分析一个变量即可。
不但可以对相同类别植物的不同特性进行相关性分析,还可以对不同类别植物的相同特性进行分析。
相关分析可以发现相同类别的萼片长和萼片宽具有比较高的相关系数,而花瓣的长宽具有明显的不相关性。不同种类的同种特性之间,只有很低的相关性(小于0.1),因此可以认定不同种类的同种特性不具有相关性。
通过对数据集进行相关分析,可以很好地掌握数据的分布规律和趋势。

3.长与宽之间的关系——数据集的回归分析

1)使用线性回归分析长与宽之间的关系
萼片长和萼片宽呈现一定的相关性,因此可以说,随着叶片宽度的增加,长度也呈现出一定的变化。
如果需要对此回归方程进行验证,那么最简单的一个办法就是返回计算相关的变量,判断其拟合程度。这里可以使用MLlib自带的均方误差(MSE)判断方法对其进行判断。
2)使用逻辑回归分析长与宽之间的关系
萼片长和萼片宽不存在绝对的线性比较关系,因此在对其进行回归分析的时候,可以选择另外一种回归分析方法,即逻辑回归。
本例中使用逻辑回归后,均方误差有所升高。究其原因可能是在本案例分析中,回归主要是一元为主,而逻辑回归更胜于使用在多元线性回归的分析中。
把两个或两个以上定距或定比例的数量关系用函数形式表示出来,就是回归分析要解决的问题。
经过回归分析,可以清楚地看到,不同特性之间有着一定的相互依赖性,这可能与植物的特性有关,毕竟同样的植物其生长规律具有一致性。

4.使用分类和聚类对鸢尾花数据集进行处理

1)使用聚类分析对数据集进行聚类处理
聚类分析的最大特点就是没有必然性,可能每次聚类处理的结果都不尽相同。
使用Kmeans算法进行聚类分析。
还可以使用高斯聚类器对数据进行聚类。

2)使用分类分析对数据集进行分类处理
分类器主要选择贝叶斯分类器。

5.最终的判定——决策树测试

决策树是一种常用的数据挖掘方法,它用来研究特征数据的“信息熵”的大小,从而确定在数据决策过程中哪些数据起决定作用。它使得决策程序在完全没有人工干扰的情况下自主地对数据进行分类,这点极大地方便了大数据的决策与分类的自动化处理。
当数据量较大的时候,随机雨林是一个能够充分利用分布式集群的决策树算法。

这篇关于Spark Mllib数据挖掘入门十一——综合案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024181

相关文章

Springboot3 ResponseEntity 完全使用案例

《Springboot3ResponseEntity完全使用案例》ResponseEntity是SpringBoot中控制HTTP响应的核心工具——它能让你精准定义响应状态码、响应头、响应体,相比... 目录Spring Boot 3 ResponseEntity 完全使用教程前置准备1. 项目基础依赖(M

C++11中的包装器实战案例

《C++11中的包装器实战案例》本文给大家介绍C++11中的包装器实战案例,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录引言1.std::function1.1.什么是std::function1.2.核心用法1.2.1.包装普通函数1.2.

SpringCloud Stream 快速入门实例教程

《SpringCloudStream快速入门实例教程》本文介绍了SpringCloudStream(SCS)组件在分布式系统中的作用,以及如何集成到SpringBoot项目中,通过SCS,可... 目录1.SCS 组件的出现的背景和作用2.SCS 集成srping Boot项目3.Yml 配置4.Sprin

SpringBoot整合Apache Spark实现一个简单的数据分析功能

《SpringBoot整合ApacheSpark实现一个简单的数据分析功能》ApacheSpark是一个开源的大数据处理框架,它提供了丰富的功能和API,用于分布式数据处理、数据分析和机器学习等任务... 目录第一步、添加android依赖第二步、编写配置类第三步、编写控制类启动项目并测试总结ApacheS

Redis 命令详解与实战案例

《Redis命令详解与实战案例》本文详细介绍了Redis的基础知识、核心数据结构与命令、高级功能与命令、最佳实践与性能优化,以及实战应用场景,通过实战案例,展示了如何使用Redis构建高性能应用系统... 目录Redis 命令详解与实战案例一、Redis 基础介绍二、Redis 核心数据结构与命令1. 字符

通过DBeaver连接GaussDB数据库的实战案例

《通过DBeaver连接GaussDB数据库的实战案例》DBeaver是一个通用的数据库客户端,可以通过配置不同驱动连接各种不同的数据库,:本文主要介绍通过DBeaver连接GaussDB数据库的... 目录​一、前置条件​二、连接步骤​三、常见问题与解决方案​1. 驱动未找到​2. 连接超时​3. 权限不

Java中的随机数生成案例从范围字符串到动态区间应用

《Java中的随机数生成案例从范围字符串到动态区间应用》本文介绍了在Java中生成随机数的多种方法,并通过两个案例解析如何根据业务需求生成特定范围的随机数,本文通过两个实际案例详细介绍如何在java中... 目录Java中的随机数生成:从范围字符串到动态区间应用引言目录1. Java中的随机数生成基础基本随

SpringMVC配置、映射与参数处理​入门案例详解

《SpringMVC配置、映射与参数处理​入门案例详解》文章介绍了SpringMVC框架的基本概念和使用方法,包括如何配置和编写Controller、设置请求映射规则、使用RestFul风格、获取请求... 目录1.SpringMVC概述2.入门案例①导入相关依赖②配置web.XML③配置SpringMVC

Python连接Spark的7种方法大全

《Python连接Spark的7种方法大全》ApacheSpark是一个强大的分布式计算框架,广泛用于大规模数据处理,通过PySpark,Python开发者能够无缝接入Spark生态系统,本文给大家介... 目录第一章:python与Spark集成概述PySpark 的核心优势基本集成配置步骤启动一个简单的

Mysql利用binlog日志恢复数据实战案例

《Mysql利用binlog日志恢复数据实战案例》在MySQL中使用二进制日志(binlog)恢复数据是一种常见的用于故障恢复或数据找回的方法,:本文主要介绍Mysql利用binlog日志恢复数据... 目录mysql binlog核心配置解析查看binlog日志核心配置项binlog核心配置说明查看当前所