【20200408】数据挖掘DM课程课业打卡五之决策树求解信息增益

本文主要是介绍【20200408】数据挖掘DM课程课业打卡五之决策树求解信息增益，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

【20200408】数据挖掘DM课程课业打卡五之决策树&求解信息增益

一、填空题
二、知识点巩固
- 1、分类相关概念
- 2、解决分类问题的一般方法
- 3、用决策树归纳分类
- 4、关于决策树算法:
- 5、决策树构建
- 6、关于三种著名的决策树
- 7、ID3 算法—期望信息/熵 (entropy)
- 8、ID3 算法—划分的期望信息
- 9、ID3 算法 — 信息增益
- 10、ID3 算法—— 例子

叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！
在这里插入图片描述

一、填空题

1、数据的属性已知，数据的类别也已知，这样的数据叫做____样本。

正确答案：  训练

2、数据的属性已知，数据的类别未知，这样的数据叫做_____样本。

正确答案：   测试

3、
在这里插入图片描述

已知训练数据集如表1：
该数据集中，P(yes)= _____ ； P(no)= _____ ；

该数据集的熵为 Info(D) = _____ ；

（说明：熵可以写成I(m,n)的形式，或者写成-(b/a)*log2(b/a) -( d/c)*log2(d/c)的形式其中，分数b/a、d/c约分为最简形式）

正确答案：【形式不唯一】第一空： 
6/10；3/5；0.6第二空： 
4/10；2/5；0.4第三空： 
I(6,4)；–(3/5)log2(3/5)–(2/5)log2(2/5)；–(3/5)*log2(3/5)–(2/5)*log2(2/5)；–(2/5)log2(2/5)–(3/5)log2(3/5)；–(2/5)*log2(2/5)–(3/5)*log2(3/5)

4、接上题，已知训练数据集如表1。若以Attribute1为分裂属性，将数据集分成三个子集D1、D2、D3，分别对应Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。三个子集的样本数量与原始数据集的比例分别为 _____ 、 _____ 、 _____ 。

正确答案：0.4；0.2；0.4；

5、接上题，已知训练数据集如表1。若以Attribute1为分裂属性，将数据集分成三个子集D1、D2、D3，分别对应Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。三个子集的熵分别为 _____ 、 _____ 、 _____ 。

（说明：熵可以写成I(m,n)的形式，或者写成-(b/a)*log2(b/a) -( d/c)*log2(d/c)的形式其中，分数b/a、d/c约分为最简形式）

正确答案：【形式不唯一】第一空： 
I(1,3)；I(3,1)； – (1/4)log2(1/4)–(3/4)log2(3/4)；–(1/4)*log2(1/4)–(3/4)*log2(3/4)； – (3/4)log2(3/4)–(1/4)log2(1/4)；–(3/4)*log2(3/4)–(1/4)*log2(1/4)