Spark Mllib数据挖掘入门十一——综合案例

2024-06-02 14:08

本文主要是介绍Spark Mllib数据挖掘入门十一——综合案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文主要研究一个较为基础的、经典的数据挖掘任务,包括数据的预处理、数据的分析性挖掘和多种MLlib算法的使用。
具体目标是研究不同的鸢尾花的生长分布,以及种类的判定方法,其中会使用到回归分析方法以及决策树方法,这些都是现实中常用的数据挖掘方法。

1.建模说明

不同种类的鸢尾花有着不同的特征外貌,相同一类的鸢尾花有不同的特征,而不同类的鸢尾花可能会有着相同的特征,因此研究其分类并对其做出预测以提高采集分类的准确率是很有必要的。
鸢尾花数据集是由杰出的统计学家R.A.Fisher在20世纪30年代中期创建的,它是公认的、用于数据挖掘的最著名的数据集。

2.数据预处理和分析

在正式对数据进行分类之前,需要对数据进行统计,删除一些具有
明显偏离值较大的数据,并对其进行相关系数和距离计算。

1) 微观分析——均值与方差的对比分析
由于所有的数据都在一个统计表中,可以将其取出做成独立的数据集。
2) 宏观分析——不同种类特性的长度计算
距离趋势不同从而不同的特性距离侧重点也是不尽相同,这点在决策树创建时需要认真对待。
3)去除重复项——相关系数的确定
对一些数据问题的分析中,其数据的产生是带有一定的相关性,例如某个地区供水量和用水量呈现出一个拟合度较好的线性关系(损耗忽略不计)。对它进行分析的时候,往往只需要分析一个变量即可。
不但可以对相同类别植物的不同特性进行相关性分析,还可以对不同类别植物的相同特性进行分析。
相关分析可以发现相同类别的萼片长和萼片宽具有比较高的相关系数,而花瓣的长宽具有明显的不相关性。不同种类的同种特性之间,只有很低的相关性(小于0.1),因此可以认定不同种类的同种特性不具有相关性。
通过对数据集进行相关分析,可以很好地掌握数据的分布规律和趋势。

3.长与宽之间的关系——数据集的回归分析

1)使用线性回归分析长与宽之间的关系
萼片长和萼片宽呈现一定的相关性,因此可以说,随着叶片宽度的增加,长度也呈现出一定的变化。
如果需要对此回归方程进行验证,那么最简单的一个办法就是返回计算相关的变量,判断其拟合程度。这里可以使用MLlib自带的均方误差(MSE)判断方法对其进行判断。
2)使用逻辑回归分析长与宽之间的关系
萼片长和萼片宽不存在绝对的线性比较关系,因此在对其进行回归分析的时候,可以选择另外一种回归分析方法,即逻辑回归。
本例中使用逻辑回归后,均方误差有所升高。究其原因可能是在本案例分析中,回归主要是一元为主,而逻辑回归更胜于使用在多元线性回归的分析中。
把两个或两个以上定距或定比例的数量关系用函数形式表示出来,就是回归分析要解决的问题。
经过回归分析,可以清楚地看到,不同特性之间有着一定的相互依赖性,这可能与植物的特性有关,毕竟同样的植物其生长规律具有一致性。

4.使用分类和聚类对鸢尾花数据集进行处理

1)使用聚类分析对数据集进行聚类处理
聚类分析的最大特点就是没有必然性,可能每次聚类处理的结果都不尽相同。
使用Kmeans算法进行聚类分析。
还可以使用高斯聚类器对数据进行聚类。

2)使用分类分析对数据集进行分类处理
分类器主要选择贝叶斯分类器。

5.最终的判定——决策树测试

决策树是一种常用的数据挖掘方法,它用来研究特征数据的“信息熵”的大小,从而确定在数据决策过程中哪些数据起决定作用。它使得决策程序在完全没有人工干扰的情况下自主地对数据进行分类,这点极大地方便了大数据的决策与分类的自动化处理。
当数据量较大的时候,随机雨林是一个能够充分利用分布式集群的决策树算法。

这篇关于Spark Mllib数据挖掘入门十一——综合案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024181

相关文章

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

从入门到精通C++11 <chrono> 库特性

《从入门到精通C++11<chrono>库特性》chrono库是C++11中一个非常强大和实用的库,它为时间处理提供了丰富的功能和类型安全的接口,通过本文的介绍,我们了解了chrono库的基本概念... 目录一、引言1.1 为什么需要<chrono>库1.2<chrono>库的基本概念二、时间段(Durat

解析C++11 static_assert及与Boost库的关联从入门到精通

《解析C++11static_assert及与Boost库的关联从入门到精通》static_assert是C++中强大的编译时验证工具,它能够在编译阶段拦截不符合预期的类型或值,增强代码的健壮性,通... 目录一、背景知识:传统断言方法的局限性1.1 assert宏1.2 #error指令1.3 第三方解决

Python get()函数用法案例详解

《Pythonget()函数用法案例详解》在Python中,get()是字典(dict)类型的内置方法,用于安全地获取字典中指定键对应的值,它的核心作用是避免因访问不存在的键而引发KeyError错... 目录简介基本语法一、用法二、案例:安全访问未知键三、案例:配置参数默认值简介python是一种高级编

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

从入门到精通MySQL 数据库索引(实战案例)

《从入门到精通MySQL数据库索引(实战案例)》索引是数据库的目录,提升查询速度,主要类型包括BTree、Hash、全文、空间索引,需根据场景选择,建议用于高频查询、关联字段、排序等,避免重复率高或... 目录一、索引是什么?能干嘛?核心作用:二、索引的 4 种主要类型(附通俗例子)1. BTree 索引(

HTML中meta标签的常见使用案例(示例详解)

《HTML中meta标签的常见使用案例(示例详解)》HTMLmeta标签用于提供文档元数据,涵盖字符编码、SEO优化、社交媒体集成、移动设备适配、浏览器控制及安全隐私设置,优化页面显示与搜索引擎索引... 目录html中meta标签的常见使用案例一、基础功能二、搜索引擎优化(seo)三、社交媒体集成四、移动

Redis 配置文件使用建议redis.conf 从入门到实战

《Redis配置文件使用建议redis.conf从入门到实战》Redis配置方式包括配置文件、命令行参数、运行时CONFIG命令,支持动态修改参数及持久化,常用项涉及端口、绑定、内存策略等,版本8... 目录一、Redis.conf 是什么?二、命令行方式传参(适用于测试)三、运行时动态修改配置(不重启服务