Weka Explorer(探索者界面) 详解(3)决策树算法,分类器评价标准说明

本文主要是介绍Weka Explorer(探索者界面) 详解(3)决策树算法,分类器评价标准说明,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇文章中我会通过几个例子向大家介绍一些weka中经典的数据挖掘算法和评估算法的手段。

J4.8 决策树算法

在预处理标签页 点击 open file ,选择 Weka 安装目录下 data 文件夹中的 weather.numberic.arff 。(在这个目录中有很多经典的样本)

进入分类器标签,点击 Choose 按钮,开始选择分类器算法。在弹出的树状目录中找到 trees 节点,打开它,选择 J48 算法。验证方式选择 10折交叉验证。点击 Start 开始分类。

J4.8算法是著名的决策树算法C4.5的一个改进版,也是最后一个免费版本。选完这个算法后可以看到weka对J48算法赋予了默认参数:-C 0.25 -M 2。前者是用于剪枝的置信因子,后者指定了每个叶结点最小的实例数。详见:http://blog.csdn.net/buaalei/article/details/7105965。

运行完成后可以在 output 界面查看结果。

outlook = sunny
|   humidity <= 75: yes (2.0)
|   humidity > 75: no (3.0)
outlook = overcast: yes (4.0)
outlook = rainy
|   windy = TRUE: no (2.0)
|   windy = FALSE: yes (3.0)
括号内的数字表示有多少实例到达该叶结点。如果有错误的分类,则括号内会出现两个数字,比如(2.0/1.0),表示其中有一个节点是错误分类。

在 output 版面的最后可以看到一些 高级的统计数据,如下图:



我们一个一个解释:

Kappa statistic:

这个参数是把分类器与随机分类器作比较得出的一个对分类器的评价值。那么0.186是怎么计算出来的呢?

从output 版面的最下面的 confusion matrix(混淆矩阵)中,我们发现分类器把10个实例预测成了a情况(其中7对3错),4个实例预测成了b情况(2对2错)。如果换做一个随机分类器,也把10个实例预测成了a,4个实例预测成了b,那么该随机分类器的预测准确情况会是什么样的?按照概率分布,正确地预测a的概率为9/14,正确地预测b的概率为5/14。所以该分类器能准确预测的实例个数为 10×(9/14)+4×(5/14)=110/14≈7.85。Kappa=(9-7.85)÷(14-7.85)≈0.186

参考文献:http://biostatistics.cmu.edu.tw/online/teaching_corner_011.pdf

Mean absolute error 和 Root mean squared error: 

平均绝对误差,用来衡量分类器预测值和实际结果的差异,越小越好。


Relative absolute error 和 Root relative squared error:

举个例子来说明:实际值为500,预测值为450,则绝对误差为50;实际值为2,预测值为1.8,则绝对误差为0.2。这两个数字50和0.2差距很大,但是表示的误差率同为10%,所以有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值的比重来反映误差大小,效果更佳。

详见:http://www.doc88.com/p-89192423133.html


TP,FP:

TP表示识别率,对某一分类的实例,有多少概率把它识别出来。提高识别率在医疗系统中很重要,如果病人有病,却没有识别出来,后果很严重!
FP表示误判率,对其他分类的实例,有多少概率把实例识别成本分类。

Precision:

精准度。表示对某一个类别的分类中,正确的实例数占总数的比率。

Recall:

召回率,又称查全率。表示识别正确的实例数,占该类别的实例的总数。由于本例中没有未识别的实例,所以Recall=TP。


F-Measure:

这个值是精准度和召回率的综合,在现实中精准度和召回率往往不可兼得,所以引入了F值,F值越大说明精准度和召回率都相对较高,详见:http://baike.baidu.com/link?url=3mOTzT44pst0QuciABcnqnIHV-RI3XrfldYTZrPRxq6uEnttl-IQnVC-c2HOJ3jTvAXgXKSi3htc86bsamPoQq 

ROC Area:

详见:http://blog.csdn.net/rav009/article/details/9096867

混淆矩阵Confusion Matrix:

第一行的“7”表示有7个a情况的实例得到正确分类,第一行的“2”表示有2个a情况被错误地分类成了b。
第二行的“3”表示有3个b情况的实例被错误的分类成了啊,第二行的”2“表示有2个b情况得到正确的分类。

这篇关于Weka Explorer(探索者界面) 详解(3)决策树算法,分类器评价标准说明的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/224815

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

Go路由注册方法详解

《Go路由注册方法详解》Go语言中,http.NewServeMux()和http.HandleFunc()是两种不同的路由注册方式,前者创建独立的ServeMux实例,适合模块化和分层路由,灵活性高... 目录Go路由注册方法1. 路由注册的方式2. 路由器的独立性3. 灵活性4. 启动服务器的方式5.

Java中八大包装类举例详解(通俗易懂)

《Java中八大包装类举例详解(通俗易懂)》:本文主要介绍Java中的包装类,包括它们的作用、特点、用途以及如何进行装箱和拆箱,包装类还提供了许多实用方法,如转换、获取基本类型值、比较和类型检测,... 目录一、包装类(Wrapper Class)1、简要介绍2、包装类特点3、包装类用途二、装箱和拆箱1、装

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

Python中Markdown库的使用示例详解

《Python中Markdown库的使用示例详解》Markdown库是一个用于处理Markdown文本的Python工具,这篇文章主要为大家详细介绍了Markdown库的具体使用,感兴趣的... 目录一、背景二、什么是 Markdown 库三、如何安装这个库四、库函数使用方法1. markdown.mark

PLsql Oracle 下载安装图文过程详解

《PLsqlOracle下载安装图文过程详解》PL/SQLDeveloper是一款用于开发Oracle数据库的集成开发环境,可以通过官网下载安装配置,并通过配置tnsnames.ora文件及环境变... 目录一、PL/SQL Developer 简介二、PL/SQL Developer 安装及配置详解1.下

使用Navicat工具比对两个数据库所有表结构的差异案例详解

《使用Navicat工具比对两个数据库所有表结构的差异案例详解》:本文主要介绍如何使用Navicat工具对比两个数据库test_old和test_new,并生成相应的DDLSQL语句,以便将te... 目录概要案例一、如图两个数据库test_old和test_new进行比较:二、开始比较总结概要公司存在多

css渐变色背景|<gradient示例详解

《css渐变色背景|<gradient示例详解》CSS渐变是一种从一种颜色平滑过渡到另一种颜色的效果,可以作为元素的背景,它包括线性渐变、径向渐变和锥形渐变,本文介绍css渐变色背景|<gradien... 使用渐变色作为背景可以直接将渐China编程变色用作元素的背景,可以看做是一种特殊的背景图片。(是作为背

springboot日期格式化全局LocalDateTime详解

《springboot日期格式化全局LocalDateTime详解》文章主要分析了SpringBoot中ObjectMapper对象的序列化和反序列化过程,并具体探讨了日期格式化问题,通过分析Spri... 目录分析ObjectMapper与jsonSerializer结论自定义日期格式(全局)扩展利用配置