小孩都看得懂的基尼不纯度

2023-10-08 01:50
文章标签 看得懂 小孩 纯度 基尼

本文主要是介绍小孩都看得懂的基尼不纯度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

全文共 1343 字,16 幅图,

预计阅读时间 8 分钟。

本文是「小孩都看得懂」系列的第十一篇,本系列的特点是极少公式没有代码只有图画只有故事。内容不长,碎片时间完全可以看完,但我背后付出的心血却不少。喜欢就好!

  1. 小孩都看得懂的神经网络

  2. 小孩都看得懂的推荐系统

  3. 小孩都看得懂的逐步提升

  4. 小孩都看得懂的聚类

  5. 小孩都看得懂的主成分分析

  6. 小孩都看得懂的循环神经网络

  7. 小孩都看得懂的 Embedding

  8. 小孩都看得懂的熵、交叉熵和 KL 散度

  9. 小孩都看得懂的 p-value

  10. 小孩都看得懂的假设检验

  11. 小孩都看得懂的基尼不纯度

0

定义

基尼不纯度 (Gini Impurity) 用来度量数据集的多样性 (diversity)。小孩肯定读不懂这句话,那么接着看下面。

1

提问:下面那组数据集看起来更多样?

回答:右边,因为里面形状更多一些。

2

如果你回答右图更多样,那么你的直觉是对的。这个模糊的“多样性”概念用精确的数学语言来定义就是基尼不纯度。

基尼不纯度是一个数,当它数值越大,对应的数据集越多样,即越不纯。左右两图的基尼不纯度分别为 0.42 和 0.7,右边大些,因此数据多样些。

3

不严谨举例

接下来计算上面两个 Gini 数值。方法就是从数据集中任意选两个数据 (组成一对) 然后看它们是否同异,

拿左图举例,选取 10 对,有 4 对中元素不同,那么"Gini" 数为 4/10 = 0.4。注意引号 “Gini” 表示这不是精确的基尼不纯度的数学定义,因为这只是一次实验,但是这个 “Gini” 可以用量化基尼不纯度。

同理看右图,选取 10 对,有 7 对中元素不同,那么"Gini" 数为 7/10 = 0.7。

右图 “Gini” 大,因此数据更多样,符合直觉,因为右边数据类别多,因此任选两个而它们不同的概率当然大些。

下面来看看严谨计算。

4

严谨计算

拿右图举例,首先画出所有对的 10 × 10 网格图。

每对中元素一样有下图这么多情况,16 + 9 + 4 + 1 = 30 中情况。

每对中元素不一样有下图这么多情况,100 减去 30 等于 70 种情况。

那么“不一样的比例”就等于

70 / 100 = 0.7

整套计算流程总结于下图,和上面唯一不同的是做了单位化,即把正方形网格的边用 1 表示,而不是 10,那么每对种含有蓝色元素、红色元素、绿色元素和黄色元素的概率为 0.4, 0.3, 0.2, 0.1。

5

复习

如果上面计算过程都看懂了,那么拿左图的例子再复习一边。

6

推广

机器学习注重推广能力 (generalization),人类学习同样注重,回想上面基尼不纯度的具体计算过程,很轻易的就能写出其通用数学公式,如下图所示:

看到这里,很多人会说,这个公式我在学决策树时见过,就是

没错,就是上面这个公式。当时光看公式缺少直觉,带着上面的图像联想这个公司是不是觉得太自然了。

7

练习

趁热打铁做几个练习,前两个已经计算过。

如果数据集里 10 个元素都一样,那么其基尼不纯度为 0, 也就说该数据集纯纯的。

如果数据集里 10 个元素都不一样,那么其基尼不纯度为 0.9, 也就说该数据集杂杂的。

基尼不纯度有可能为 1 么?不可能,但当数据集中数据无限多而又都不一样时,那么基尼不纯度接近 1。如下面公式,当 n 无限大,基尼不纯度为 1。

8

应用

基尼不纯度可用在决策树做分裂的指标。当用树来分类时,每次分裂越能分类数据越好,而越能分类数据这个能力就可以用基尼不纯度来度量。

小孩们都懂了么?

这篇关于小孩都看得懂的基尼不纯度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/161903

相关文章

泥巴与互联网里长大的小孩

最近疯狂的迷恋各种手工艺、DIY制品,昨日在歇会儿网看到各种亲子DIY活动,我又按捺不住好奇心,点进去看了看。是软陶手工艺活动,栩栩如生的飞鸟走兽、水仙玫瑰,那逼真的水平直叫人拍案叫绝。陶泥人,在怀旧中重拾经典,在手工中感受童年。 我是在泥巴里长大的小孩,之所以这么说,是有故事的。不知道大家有没有读过一篇文章叫《藏在泥巴里的爱》,这篇文章讲的主要是:一个来自于陶泥匠家庭,但家境却十分贫困的小男孩

编程实现基于信息熵/基尼指数划分选择的决策树算法

编程实现基于信息熵/基尼指数划分选择的决策树算法 手动建立一个csv文件 #csv的内容为Idx,color,root,knocks,texture,navel,touch,density,sugar_ratio,label1,dark_green,curl_up,little_heavily,distinct,sinking,hard_smooth,0.697,0.46,12,b

CART决策树-基尼指数(全网最详解)

文章目录 一、基尼指数的定义二、基尼指数在CART决策树中的应用三、基尼指数与CART决策树的构建1.计算每个子集的基尼系数:2.计算基尼指数3.选择最优特征4.其余基尼指数5.构建决策树 四、总结 CART决策树基尼指数是CART(Classification And Regression Tree)算法中用于分类任务的一种评估指标,主要用于衡量数据集的不纯度或不确定性。以下是关于

我们都是小孩,我们不会学坏

你们现在在干什么? 我很想面对面的跟你们坐在一起聊天,已经有多久没见面了,有多久没好好聊过天了,不知道你们最近有没有受委屈,有没有烦心的事,有没有跟我一样也很想念大家... 我在这里每天都很充实,每天都过的很好。 你们呢?你们也好吗? 一个人在外面,一定要照顾好自己,要坚强 ,不然软弱给谁看!讨厌你的人会看不起你,爱你的人会心疼你。 我们以后的生活谁也想不到,未来怎样,只有靠我们现在去努

而往往妇女和小孩则总被挤在一边

那是她自己缝的生活 今天的那是她自己缝的生活,在四周的树木上,指挥,荷花池四周种满了柳树,主唱,而往往妇女和小孩则总被挤在一边,而在柳树飘舞的枝条下,变幻的色彩,真盼望在天边出现一道彩虹,两条小辫子直挺挺地竖着。 西边的生活小河里,幻化成一曲奇妙的交响,天衣无缝的组合,一头花白的头发总是乱蓬蓬的,可是,绽放出一朵朵小雨花,小雨花扑打着水面,这一切像一幅瑰丽的生活油画,体验一下赤橙黄绿青蓝紧。

人工智能不那么神秘!小孩都能看懂的人工智能入门课~

1.人工智能的趋势 2.人工智能的应用 3.人工智能的技术 4.人工智能要学什么 视频比较易懂 人工智能不那么神秘!小孩都能看得懂的入门课

凡事有利有弊,如果生了一个自闭症的小孩,请说出有利的部分 :独特、专注力、诚实和直接,记忆力

生育一个自闭症小孩可能带来一些独特的优势和积极的方面,尽管也会面临许多挑战。以下是一些可能的有利方面: 独特的视角:自闭症儿童通常有独特的思维方式和视角,他们可能在某些方面比普通人更敏锐。这种独特性可以带来创新的解决方案和新颖的观点。 专注力强:许多自闭症儿童在他们感兴趣的领域表现出惊人的专注力和热情。这种专注力可以在学术研究、艺术创作或技术开发等方面带来杰出的成就。 诚实和直接:自闭症儿

纯度高的安卓和混血安卓

安卓阵营纯安卓和改装安卓,纯安卓好用,权限控制力度做到很小,每相权限都交用户控制,权限控制层面可以精确到文件夹和文件,剪切板读和写,而且有精确权限追踪功能,国产高度定制安卓系统只有粗糙访问权限控制,导致手机成了黑箱子,不知道自己那些文件可以被app看到和读取。本来纯安卓很好的,搞不懂为何要高度定制它和改造它,开源的安卓是透明和安全的,越开源越安全

信息量,信息熵,纯度

如果看不懂博文,请阅读《信息论基础》一看便懂。 链接:https://pan.baidu.com/s/1T7rS4owM2nU_DP6rthqUPA  提取码:zu9s  (1)消息 消息是实体,信息是抽象的。可以从消息中获取信息。消息的表现形式可以是:语言,符号,文字,图片 (2)信息 信息是抽象的,消息是信息的载体。 举例:如果把某个人说的话看成是消息的话,那他话中传递的意思就是信

NOR Flash 读写的高端操作,你看得懂吗?

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是i.MXRT下改造FlexSPI driver以AHB方式去写入NOR Flash。 痞子衡前段时间写过一篇 《串行NAND Flash的两大特性导致其在i.MXRT FlexSPI下无法XiP》,文章里介绍了 NAND Flash 的 Page Read 等待特性(发完 Read 命令后需要回读 Flash 内部状态寄存器 Bu