本文主要是介绍【20200408】数据挖掘DM课程课业打卡五之决策树求解信息增益,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
【20200408】数据挖掘DM课程课业打卡五之决策树&求解信息增益
- 一、填空题
- 二、知识点巩固
- 1、分类相关概念
- 2、解决分类问题的一般方法
- 3、用决策树归纳分类
- 4、关于决策树算法:
- 5、决策树构建
- 6、关于三种著名的决策树
- 7、ID3 算法—期望信息/熵 (entropy)
- 8、ID3 算法—划分的期望信息
- 9、ID3 算法 — 信息增益
- 10、ID3 算法—— 例子
叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!

一、填空题
1、数据的属性已知,数据的类别也已知,这样的数据叫做____样本。
正确答案: 训练
2、数据的属性已知,数据的类别未知,这样的数据叫做_____样本。
正确答案: 测试
3、
已知训练数据集如表1:
该数据集中,P(yes)= _____ ; P(no)= _____ ;
该数据集的熵为 Info(D) = _____ ;
(说明:熵可以写成I(m,n)的形式,或者写成-(b/a)*log2(b/a) -( d/c)*log2(d/c)的形式 其中,分数b/a、d/c约分为最简形式)
正确答案:【形式不唯一】第一空:
6/10;3/5;0.6第二空:
4/10;2/5;0.4第三空:
I(6,4);–(3/5)log2(3/5)–(2/5)log2(2/5);–(3/5)*log2(3/5)–(2/5)*log2(2/5);–(2/5)log2(2/5)–(3/5)log2(3/5);–(2/5)*log2(2/5)–(3/5)*log2(3/5)
4、接上题,已知训练数据集如表1。若以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。三个子集的样本数量与原始数据集的比例分别为 _____ 、 _____ 、 _____ 。
正确答案:0.4;0.2;0.4;
5、接上题,已知训练数据集如表1。若以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。三个子集的熵分别为 _____ 、 _____ 、 _____ 。
(说明:熵可以写成I(m,n)的形式,或者写成-(b/a)*log2(b/a) -( d/c)*log2(d/c)的形式 其中,分数b/a、d/c约分为最简形式)
正确答案:【形式不唯一】第一空:
I(1,3);I(3,1); – (1/4)log2(1/4)–(3/4)log2(3/4);–(1/4)*log2(1/4)–(3/4)*log2(3/4); – (3/4)log2(3/4)–(1/4)log2(1/4);–(3/4)*log2(3/4)–(1/4)*log2(1/4)
这篇关于【20200408】数据挖掘DM课程课业打卡五之决策树求解信息增益的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!