Ensemble

2024-05-14 16:28
文章标签 ensemble

本文主要是介绍Ensemble,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GB与HGB:

梯度提升的计算专注于单个数据,而直方图梯度提升是先把连续的数据特征分箱,然后在分箱后的特征上构建模型,这样减少理论算法复杂度和内存使用,所以更加适用的大的数据集。

梯度提升的思想在于,按照顺序学习,通过逐步添加弱学习器来最小化损失函数,后续的模型专注于怎么减少前一个模型的残差。

但在有的情况下即使是在小量数据集上,HGB的表现也可能会更好,这可能与数据随机性或者数据内部结构有关,但通常情况下,HGB更适合用于大数据集。

对于GB,在梯度提升算法中,为每个类别都构建独立的模型来估计该类别的概率,所以对于一个n分类的任务,每次需要构建n棵树。在每轮迭代中,每棵树负责预测其对应类别的残差,以这种方式来逐步改进该模型的效果。所以如果总共进行了m论梯度提升,总共需要m*n棵树,这对于计算的要求是巨大的,所以对于类别过多的分类任务,推荐使用HGB。

RF:

对于随机森林,其主要思想是:每个子树在随机的数据子集上进行训练,预测的最后结果通过平均或者回归多棵子树的结果或者采用vote来得出。

subsampling:

这是梯度提升算法中的一个参数用于控制训练的数据集大小。可以避免过拟合,增加数据的随机性以及减少训练时间。如果要使用类似的思想应用与特征上,可以对max_features进行设置。

ExtraTrees:

超随机树也叫极端随机森林,与随机森林比较其特点上在每个分裂点上是随机选择的,增加了更大的随机性和泛化性。

Bagging meta-estimator:

Bagging 元估计器主要是通过结合多个模型来提高机器学习算法的稳定性和准确性。

主要有:

Pasting:不同的模型在不同的数据子集上训练

Bagging:通过在有放回的方法上抽取形成的多个数据集上进行训练(自举采样)

Ranom Subsaces:在不同的特征子集上进行训练

Ranom Patches:结合Pasting和Random Subspecies,在具有不同特征和数据的自己上训练不同的模型

以上多个方法的目的就在于增加模型的泛化性和随机性。

Stacked generalization:

堆叠泛化的思想在于先在训练数据上训练一些初级模型,然后在用这些初级模型进行预测,然后把这些初级模型预测的结果作为次级模型的输入,然后再训练次级模型。

AdaBoost:

自适应提升,主要是在样本中赋予权重,对于预测错的样本就增加其权重,以便在下一个迭代过程中加大解决这个预测错误问题的力度,然后通过不断迭代来提升效果。

梯度提升需要计算当前模型的残差并通过梯度下降的方法来优化下一步的训练,所有所比较复杂适合较为复杂的学习器,而对于AdaBoost是通过根据预测效果不断改变错误样本的权重来优化,但这容易受噪声数据影响进而导致过拟合。

这篇关于Ensemble的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989248

相关文章

one model / ensemble method /meta-algorithm 迁移学习算不算ensemble method

鉴于object detection COCO数据集的论文经常出现 single-model 也就是说,这是一个对网络的分类,呢它是什么意思,有什么特点。相对应的另一类是什么。就是下面介绍的ensemble learning。 不过比如说网络初值是用别人的网络训练好的数值,一定意义来讲是在优化空间找到一个初值,对于自己网络的结果的影响究竟有多大,也就是说,用随机初始网络得到的结果是否有不同,有多

集成学习 Ensemble Learning

目录 一、集成学习概览1、介绍2、学习器3、boosting和bagging比较1、样本选择2、样例权重3、预测函数4、计算5、其他 4、结合策略 二、Adaboost1、介绍2、运行过程3、特点4、代码示例 三、随机森林1、介绍2、随机森林生成3、特点4、优缺点5、代码示例6、参数介绍 四、GBDT1、介绍2、回归树算法流程3、GBDT加法模型:前向分布算法4、加法模型算法过程5、Shri

【量化课堂】决策树及其主要 Ensemble 算法的区别和联系 【记录我的学习】

引言: 本文大致讲讲决策树和它的两种主要优化分支 --Bagging 和 Boosting 下的一些重要算法,对于各个算法的详细知识感兴趣的可以看论坛其他文章:《【量化课堂】随机森林入门》,《【量化课堂】决策树入门及 Python 应用》。本文是小编随笔, 例子不恰当之处请大家不要打小编。-_-#-_-# 本文由 JoinQuant 量化课堂推出 。难度标签为入门,理解深度标签:level-0作

【机器学习实战】第7章 集成方法 ensemble method

第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式。 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。 机器学习处理问题时又何尝不是如此? 这就是集成方法背后的思想。 集成方法: 投票选举(bagging: 自举汇聚法 b

【AdaSeq论文解读系列】ACL 21-自动组合各种BERT模型,在实体抽取、观点抽取、句法分析等六大结构预测任务20+个数据集获SOTA,比ensemble更强!

作者:落叶 链接:https://zhuanlan.zhihu.com/p/593364152 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本文介绍了一项研究工作,提出了在结构预测问题上自动拼接word embedding(word embedding)以提高模型准确度的方法。该论文已被ACL2021接收为长文。 论文标题: Automated Conca

李宏毅机器学习课程笔记10:Ensemble、Deep Reinforcement Learning

台湾大学李宏毅老师的机器学习课程是一份非常好的ML/DL入门资料,李宏毅老师将课程录像上传到了YouTube,地址:NTUEE ML 2016 。 这篇文章是学习本课程第27-28课所做的笔记和自己的理解。 Lecture 27: Ensemble Ensemble类似于“打群架”“大家一起上”,在Kaggle中是重要的方法。 Ensemble的Framework是: 先找到若干分

[机器学习入门] 李宏毅机器学习笔记-36(Ensemble part 2;集成方法 part 2)

[机器学习入门] 李宏毅机器学习笔记-35(Ensemble;集成方法) PDFVIDEO 上接part 1 Ensemble Ensemble Boosting AdaBoost Algorithm for AdaBoost 上面 空白处为+1或-1,由下式决定。 于是:

[机器学习入门] 李宏毅机器学习笔记-35(Ensemble part 1;集成方法 part 1)

[机器学习入门] 李宏毅机器学习笔记-35(Ensemble;集成方法) PDFVIDEO Ensemble 俗称打群架,想要得到很好的performance,基本都要用这一手。 You already developed some algorithms and codes.Lazy to modify them.Ensemble: improving your machin

Patch-Based 3D Unet for Head and Neck Tumor Segmentation with an Ensemble of Conventional and Dilate

Patch-Based 3D Unet for Head and Neck Tumor Segmentation with an Ensemble of Conventional and Dilated Convolutions 总结: 普通的3D Unet通过超参数(patch size、loss、convolution)的调整,创建了五个模型(也就是使用不同超参数的五个3D Unet),将总体

医院信息系统集成平台—Ensemble集成平台中间件

Ensemble HIE(健康信息交换)是InterSystems公司一个新的产品,它采用了一种全新的解决方案,是一个强大的应用软件整合平台,它包括了为医疗信息交换预先开发好的组件,使用Ensemble可以快速地整合和开发复合应用程序。Ensemble在增强现有软件功能、协调新的商业过程和集中企业数据等方面非常出色。 为了满足每一个交换系统的实际需要,它还提供了一个为客户化和扩展这些组件功能的完