Spark Mllib数据挖掘入门十一——综合案例

2024-06-02 14:08

本文主要是介绍Spark Mllib数据挖掘入门十一——综合案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文主要研究一个较为基础的、经典的数据挖掘任务,包括数据的预处理、数据的分析性挖掘和多种MLlib算法的使用。
具体目标是研究不同的鸢尾花的生长分布,以及种类的判定方法,其中会使用到回归分析方法以及决策树方法,这些都是现实中常用的数据挖掘方法。

1.建模说明

不同种类的鸢尾花有着不同的特征外貌,相同一类的鸢尾花有不同的特征,而不同类的鸢尾花可能会有着相同的特征,因此研究其分类并对其做出预测以提高采集分类的准确率是很有必要的。
鸢尾花数据集是由杰出的统计学家R.A.Fisher在20世纪30年代中期创建的,它是公认的、用于数据挖掘的最著名的数据集。

2.数据预处理和分析

在正式对数据进行分类之前,需要对数据进行统计,删除一些具有
明显偏离值较大的数据,并对其进行相关系数和距离计算。

1) 微观分析——均值与方差的对比分析
由于所有的数据都在一个统计表中,可以将其取出做成独立的数据集。
2) 宏观分析——不同种类特性的长度计算
距离趋势不同从而不同的特性距离侧重点也是不尽相同,这点在决策树创建时需要认真对待。
3)去除重复项——相关系数的确定
对一些数据问题的分析中,其数据的产生是带有一定的相关性,例如某个地区供水量和用水量呈现出一个拟合度较好的线性关系(损耗忽略不计)。对它进行分析的时候,往往只需要分析一个变量即可。
不但可以对相同类别植物的不同特性进行相关性分析,还可以对不同类别植物的相同特性进行分析。
相关分析可以发现相同类别的萼片长和萼片宽具有比较高的相关系数,而花瓣的长宽具有明显的不相关性。不同种类的同种特性之间,只有很低的相关性(小于0.1),因此可以认定不同种类的同种特性不具有相关性。
通过对数据集进行相关分析,可以很好地掌握数据的分布规律和趋势。

3.长与宽之间的关系——数据集的回归分析

1)使用线性回归分析长与宽之间的关系
萼片长和萼片宽呈现一定的相关性,因此可以说,随着叶片宽度的增加,长度也呈现出一定的变化。
如果需要对此回归方程进行验证,那么最简单的一个办法就是返回计算相关的变量,判断其拟合程度。这里可以使用MLlib自带的均方误差(MSE)判断方法对其进行判断。
2)使用逻辑回归分析长与宽之间的关系
萼片长和萼片宽不存在绝对的线性比较关系,因此在对其进行回归分析的时候,可以选择另外一种回归分析方法,即逻辑回归。
本例中使用逻辑回归后,均方误差有所升高。究其原因可能是在本案例分析中,回归主要是一元为主,而逻辑回归更胜于使用在多元线性回归的分析中。
把两个或两个以上定距或定比例的数量关系用函数形式表示出来,就是回归分析要解决的问题。
经过回归分析,可以清楚地看到,不同特性之间有着一定的相互依赖性,这可能与植物的特性有关,毕竟同样的植物其生长规律具有一致性。

4.使用分类和聚类对鸢尾花数据集进行处理

1)使用聚类分析对数据集进行聚类处理
聚类分析的最大特点就是没有必然性,可能每次聚类处理的结果都不尽相同。
使用Kmeans算法进行聚类分析。
还可以使用高斯聚类器对数据进行聚类。

2)使用分类分析对数据集进行分类处理
分类器主要选择贝叶斯分类器。

5.最终的判定——决策树测试

决策树是一种常用的数据挖掘方法,它用来研究特征数据的“信息熵”的大小,从而确定在数据决策过程中哪些数据起决定作用。它使得决策程序在完全没有人工干扰的情况下自主地对数据进行分类,这点极大地方便了大数据的决策与分类的自动化处理。
当数据量较大的时候,随机雨林是一个能够充分利用分布式集群的决策树算法。

这篇关于Spark Mllib数据挖掘入门十一——综合案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024181

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联