三个臭皮匠顶个诸葛亮的随机森林算法!

2024-02-12 02:30

本文主要是介绍三个臭皮匠顶个诸葛亮的随机森林算法!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

http://mp.weixin.qq.com/s?__biz=MzIzNDM2OTMzOQ==&mid=2247484211&idx=1&sn=5eb8958f7a87fcbb3992a5226e367445&mpshare=1&scene=23&srcid=0306A97NjBiE9Zsp5GmRJSUt#rd

 

随机森林一个已被证明了的成功的集成分类器,特别是用在多维分类问题上更是体现出其强大之处。一个随机森林是一个决策树的集合,可以看作是一个分类器包括很多不同的决策树。整个算法包括三部分:特征和数据的分组,训练决策树,最后的结果投票。

 

 

 1. 随机森林的分组策略

为了保持在随机森林中每个决策树的差异性,选择在生成决策树的时候选择不同特征集在不同的数据集上进行训练,生成最终的决策树。因此,我们需要对数据集和特征集进行分组,在分组的过程中,分别对数据集的分组和对特征集的分组。

在分组的过程中,采用基于BootstrapingAggregation(Bagging)分组策略的改进方法。在Bagging分组策略的方法思路如下:

1.  首先对个数为n的样本集通过重采样(有放回的采样)进行分组,每组大小为n个,分成m组。这样相当于是m个大小为n的样本集。

2.  在所有属性上,分别对m个样本集进行分类模型训练。这样训练完成后就得到m个分类器。

3.  利用m个分类器对数据进行分类。根据m个分类器的投票结果决定数据最终归结为哪一类。

然而,随机森林为了更能体现出其随机性,在Bagging分组策略的基础上进行了一些改进:不仅对样本集进行分类,还对特征集进行分类。具体如下:

1.  首先对个数为n的样本集通过重采样(有放回的采样)进行分组,每组大小为n个,分成m组。这样相当于是m个大小为n的样本集。

2.  对属性进行分组,属性的个数为t,在所有属性上无放回的随机选取k个属性(k<t),重复m次,这样共选取m组,大小为k的特征集。

3.  在m组属性集和m组样本集中,利用一组属性集在一组样本集上训练得到一个决策树分类器。这样训练完成后就得到m个分类器。

4.  利用m个分类器对数据进行分类。根据m个分类器的投票结果决定数据最终归结为哪一类。

首先通过重采样对数据集进行分组,将数据集分为t组。如图1所示: 

图1. 对数据集进行分组

在该分组过程中,输入是原始的数据集,输出为分好组的子数据集D_i其中子数据集的长度是和原始数据集的长度相同,值得注意的是为了保持数据集大小的一致和数据的多样性,这里采用重采样,所以在每一个子数据集中,允许有重复的样本出现。

对数据集进行分组后,对特征集进行分组,如图2所示:


图2. 对特征集的分组

对特征集的分组,如上图所示,输入是原始全部特征集。通过采样得到t组F_i,在对特征集进行分组的时候,是通过直接采样进行的,所以每个子特征集中的特征不会重复。这里特征集的长度应比原始特征集的长度小,如果等于原始特征集的长度,则在子特征集中特征不重复的情况下,每个子特征都一样,缺少了子特征集的多样性,从而限制了随机森林中,决策树的多样性。

 

 

2.决策树的建立

    决策树的建立,主要分两步:构建完全决策树和决策树剪枝。首先是通过一定的方法选择决策树节点,构建出一个未剪枝的决策树。然后,对该决策树进行剪枝来提高其分类的泛华能力。

    随机森林中利用CART算法构建完全决策树,CART算法利用Gini指标进行分裂节点的选择。Gini指标度量数据划分或训练数据集D的不纯度,其中特征A的取值A_i的不纯度定义为;

   其中表示取值A_i时样本的类别,j为该取值下的类别,则特征A的不纯度表示为:

   其中i表示特征A所取的值,j表示所分的类别。

选择不纯度最小的属性作为节点,进行决策树的构建。 

当决策树构建完全之后,由于数据中的噪声点和离群点。许多分枝反应的是训练数据集中的异常。剪枝方法是用来处理构建决策树后的这种过拟合的问题。通常的剪枝方法都是使用统计度量的方法,即剪去最不可靠的分枝。

剪枝一般分为两种方法:先剪枝和后剪枝:

先剪枝的方法是通过提前停止树的构造(比如决定在某个节点不再分裂)而对树剪枝,一旦停止,这个节点就编程树叶,该树叶可能取它持有的子集最频繁的类作为自己的类。先剪枝有很多方法,比如当决策树达到一定的高度就停止决策树的生长;或者到达此节点的实例个数小于某个阈值的时候也可以停止树的生长,不足之处是不能处理那些数据量比较小的特殊情况。先剪枝有个缺点就是视野效果问题,也就是说我们很难确定基于先剪枝生成的决策树是否是最优的决策树。

更常用的是第二种方法后剪枝。它由完全成长的树剪去子树而形成,通过删除节点的分枝并用树叶来替换它。树叶一般用子树中最频繁的类别来标记。这个方法称为基于误判的剪枝。这个思路很直接,因为完全决策树过拟合,所以通过一个测试数据集来纠正它。对于完全决策树中的每一个非叶子节点的子树,我们尝试着把它替换成一个叶子节点,该叶子节点的类别我们用子树所覆盖训练样本中存在最多的那个类来代替,这样就产生了一个简化决策树,然后比较这两个决策树在测试数据集中的表现,如果简化决策树在测试数据集中的错误比较少,并且该子树里面没有包含另外一个具有类似特性的子树(所谓类似的特性,指的就是把子树替换成叶子节点后,其测试数据集误判率降低的特性),那么该子树就可以替换成叶子节点。该算法以bottom-up的方式遍历所有的子树,直至没有任何子树可以替换使得测试数据集的表现得以改进时,算法就可以终止。

在我们的随机森林算法构建决策树的时候,就是在在对数据集和特征集分组之后,将子特征集和子数据集分组进行训练分类模型:                      

   在传统的随机森林算法中,决策树的建立是通过CART算法进行训练决策树模型。CART算法的基本原理是通过由测试变量和目标变量构成的训练数据集的循环分析,而构成的二叉树形式的决策树CART算法在最佳测试变量和分割阈值准则上采用经济学中的基尼系数Gini,Gini系数的定义上。通过CART的方法对每组G_i进行构建决策树。这样我们就可以构建t颗决策树。

 

 

3.投票机制

投票机制是指根据投票者的选择以选出最终结果的一种常用方法。其中主要分一下几种:

1.  一票否决制(一致表决):一票否决制是指在投票的过程中,只有在大家都同意A结果的情况下,最终的结果才为A,任何一票不同意,则最后的结果均不为A。

2.  少数服从多数制:是指在投票的过程中,最终的结果是大多数人认可的结果,少数人须服从多数人的意愿。

3.  阈值表决制:在投票的时候,为每个类设置阈值,当投票结果达到某一类的阈值时,即选取该类为最终结果。

4.  加权投票制:即指在投票的过程中,某些人投票分量比较重,在GEP中,可以看做适应值高的个体投票份额较大。

5.  贝叶斯投票机制:简单的投票法假设每个分类器都是平等的,在实际生活中,我们听取一个人的意见,会考虑这个人过去的意见是否有用,从而加大或减少权值。也就是说贝叶斯投票机制是基于每个分类器在过去的分类表现设定一个权值,然后按照这个权值进行投票。

随机森林的决策树的传统方法通过使用CART的方法训练决策树,在根据t组数据和特征获得t棵决策树后,需要利用每一棵决策树对测试集进行决策出一个结果。这样就会对一个测试样本得到t个测试结果。最简单的,这里每颗决策树投一票,根据少数服从多数的原则,得到该测试样本的最终分类结果。如下图3:

图3 随机森林流程图

整个随机森林的流程图如上图所示。首先对数据集和特征集进行分组,然后对每一组数据集和特征集通过CART算法进行决策树的构建,对于一个测试样本,每一个决策树都会得出一个决策结果,最后根据少数服从多数的原则进行投票得出最终是分类结果。

 


免责声明:本文系网络转载。版权归原作者所有。如涉及版权,请联系删除

转载于:https://www.cnblogs.com/zhangbojiangfeng/p/6513081.html

这篇关于三个臭皮匠顶个诸葛亮的随机森林算法!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/701444

相关文章

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

大林 PID 算法

Dahlin PID算法是一种用于控制和调节系统的比例积分延迟算法。以下是一个简单的C语言实现示例: #include <stdio.h>// DALIN PID 结构体定义typedef struct {float SetPoint; // 设定点float Proportion; // 比例float Integral; // 积分float Derivative; // 微分flo

LeetCode 算法:二叉树的中序遍历 c++

原题链接🔗:二叉树的中序遍历 难度:简单⭐️ 题目 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root = [1,null,2,3] 输出:[1,3,2] 示例 2: 输入:root = [] 输出:[] 示例 3: 输入:root = [1] 输出:[1] 提示: 树中节点数目在范围 [0, 100] 内 -100 <= Node.

【Java算法】滑动窗口 下

​ ​    🔥个人主页: 中草药 🔥专栏:【算法工作坊】算法实战揭秘 🦌一.水果成篮 题目链接:904.水果成篮 ​ 算法原理 算法原理是使用“滑动窗口”(Sliding Window)策略,结合哈希表(Map)来高效地统计窗口内不同水果的种类数量。以下是详细分析: 初始化:创建一个空的哈希表 map 用来存储每种水果的数量,初始化左右指针 left

ROS2从入门到精通4-4:局部控制插件开发案例(以PID算法为例)

目录 0 专栏介绍1 控制插件编写模板1.1 构造控制插件类1.2 注册并导出插件1.3 编译与使用插件 2 基于PID的路径跟踪原理3 控制插件开发案例(PID算法)常见问题 0 专栏介绍 本专栏旨在通过对ROS2的系统学习,掌握ROS2底层基本分布式原理,并具有机器人建模和应用ROS2进行实际项目的开发和调试的工程能力。 🚀详情:《ROS2从入门到精通》 1 控制插

算法与数据结构面试宝典——回溯算法详解(C#,C++)

文章目录 1. 回溯算法的定义及应用场景2. 回溯算法的基本思想3. 递推关系式与回溯算法的建立4. 状态转移方法5. 边界条件与结束条件6. 算法的具体实现过程7. 回溯算法在C#,C++中的实际应用案例C#示例C++示例 8. 总结回溯算法的主要特点与应用价值 回溯算法是一种通过尝试各种可能的组合来找到所有解的算法。这种算法通常用于解决组合问题,如排列、组合、棋盘游

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

【数据结构与算法 经典例题】使用队列实现栈(图文详解)

💓 博客主页:倔强的石头的CSDN主页               📝Gitee主页:倔强的石头的gitee主页    ⏩ 文章专栏:《数据结构与算法 经典例题》C语言                                   期待您的关注 ​​ 目录  一、问题描述 二、前置知识 三、解题思路 四、C语言实现代码 🍃队列实现代码:

算法11—判断一个树是不是二叉查询树

问题: 给定一个二叉树,判断它是否是二叉查询树。 思路: 要判断是否是二叉查询树,标准就是看每一个节点是否满足:1、左节点及以下节点的值比它小;2、右节点及以下节点的值比它大。当然,前提是子节点都存在的情况。所以,我们需要从根节点不断向下递归,只要所有节点都满足,那么就是BST,否则,就不是。 代码: [java]  view plain copy pri