mllib之随机森林与梯度提升树

本文主要是介绍mllib之随机森林与梯度提升树，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

随机森林和GBTs都是集成学习算法，它们通过集成多棵决策树来实现强分类器。

集成学习方法就是基于其他的机器学习算法，并把它们有效的组合起来的一种机器学习算法。组合产生的算法相比其中任何一种算法模型更强大、准确。

随机森林和梯度提升树(GBTs)。两者之间主要差别在于每棵树训练的顺序。

随机森林通过对数据随机采样来单独训练每一棵树。这种随机性也使得模型相对于单决策树更健壮，且不易在训练集上产生过拟合。

GBTs则一次只训练一棵树，后面每一棵新的决策树逐步矫正前面决策树产生的误差。随着树的添加，模型的表达力也愈强。

最后，两种方法都生成了一个决策树的权重集合。该集成模型通过组合每棵独立树的结果来进行预测。下图显示一个由3棵决策树集成的简单实例。

在上述例子的回归集合中，每棵树都预测出一个实值。这些预测值被组合起来产生最终集成的预测结果。这里，我们通过取均值的方法来取得最终的预测结果（当然不同的预测任务需要用到不同的组合算法）。

在MLlib中，随机森林和GBTs的数据都是按实例（行）存储的。算法的实现以原始的决策树代码为基础，每棵决策树采用分布式学习.

随机森林：随机森林中的每棵树都是单独训练，多棵树可以并行训练（除此之外，单独的每棵树的训练也可以并行化）。MLlib也确实是这么做的：根据当前迭代内存的限制条件，动态调整可并行训练的子树的数量。

这篇关于mllib之随机森林与梯度提升树的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！