本文主要是介绍信息增益、信息增益率、Gini,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1、 C4.5继承了ID3的优点,并改进了:(1)使用信息增益率来选择属性,克服了用信息增益选择属性时偏向值多的不足;(2)在构树过程中进行剪枝;(3)能够完成对连续属性的离散化处理;(4)能够对不完整数据进行处理;
2、 信息增益、信息增益率、Gini这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info Gain)用于ID3,Gini用于CART,信息增益率(Info Gain Ratio)用于C4.5。
3、 下面举例说明信息增益和信息增益率的计算:
天气预报数据集例子
Outlook | Temperature | Humidity | Windy | Play? |
sunny | hot | high | false | no |
sunny | hot | high | true | no |
overcast | hot | high | false | yes |
rain | mild | high | false | yes |
rain | cool | normal | false | yes |
rain | cool | normal | true | no |
overcast | cool | normal | true |
这篇关于信息增益、信息增益率、Gini的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!