Shark源码分析(十一):随机森林算法

2024-04-27 00:48

本文主要是介绍Shark源码分析(十一):随机森林算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Shark源码分析(十一):随机森林算法

关于这个算法的介绍,可以参看我之前关于集成算法的博客。因为Shark中关于决策树算法只实现了CART算法,所以随机森林算法中也只包含了CART算法。如果你已经看过了我之前写的关于CART算法源码分析的博客,看到后面就会发现它与随机森林算法的代码其实差不多。只是在选择最优划分属性时多了一个随机选取候选集的过程。这也是随机森林算法的一大特点。因为CART算法既可以用于分类任务中也可以用于回归任务中,所以基于CART算法的随机森林也能用于这两个任务。这里我们只介绍其用于分类任务中的代码。

MeanModel类

这个类应该算是集成算法的基类,表示如何将多个基学习器的输出结果综合起来。该类定义在<include/shark/Models/MeanModel.h>中。

template<class ModelType> // ModelType表示基学习器的类型
class MeanModel : public AbstractModel<typename ModelType::InputType, typename ModelType::OutputType>
{
private:typedef AbstractModel<typename ModelType::InputType, typename ModelType::OutputType> base_type;
public:MeanModel():m_weightSum(0){}std::string name() const{ return "MeanModel"; }using base_type::eval;// 输出集成学习器的结果,与决策树输出的结果一样,是对于每一个类别的所属概率void eval(typename base_type::BatchInputType const& patterns, typename base_type::BatchOutputType& outputs)const{m_models[0].eval(patterns,outputs);outputs *=m_weight[0];for(std::size_t i = 1; i != m_models.size(); i++) noalias(outputs) += m_weight[i] * m_models[i](patterns);outputs /= m_weightSum;}void eval(typename base_type::BatchInputType const& patterns, typename base_type::BatchOutputType& outputs, State& state)const{eval(patterns,outputs);}RealVector parameterVector() const {return RealVector();}void setParameterVector(const RealVector& param) {SHARK_ASSERT(param.size() == 0);}void read(InArchive& archive){archive >> m_models;archive >> m_weight;archive >> m_weightSum;}void write(OutArchive& archive)const{archive << m_models;archive << m_weight;archive << m_weightSum;}void clearModels(){m_models.clear();m_weight.clear();m_weightSum = 0.0;}// 增加一个基学习器void addModel(ModelType const& model, double weight = 1.0){SHARK_CHECK(weight > 0, "Weights must be positive");m_models.push_back(model);m_weight.push_back(weight);m_weightSum+=weight;}double const& weight(std::size_t i)const{return m_weight[i];}void setWeight(std::size_t i, double newWeight){m_weightSum=newWeight - m_weight[i];m_weight[i] = newWeight;}std::size_t numberOfModels()const{return m_models.size();}protected:// 表示所有的基学习器,这里要求它们的类型是一致的,但是在实际的应用中,其实是可以不一样的std::vector<ModelType> m_models;// 表示各个基学习器的权重std::vector<double> m_weight;// 所有权重之和double m_weightSum;
};

RFClassifier类

该类是用来表示一个随机森林,定义在<include/shark/Models/Trees/RFClassifier.h>中。

class RFClassifier : public MeanModel<CARTClassifier<RealVector> >
{
public:std::string name() const{ return "RFClassifier"; }// 计算模型的平均OOB误差,将基学习器的OOB误差累加起来,再除以基学习器的个数void computeOOBerror(){std::size_t n_trees = numberOfModels();m_OOBerror = 0;for(std::size_t j=0;j!=n_trees;++j){m_OOBerror += m_models[j].OOBerror();}m_OOBerror /= n_trees;}// 综合基学习器每一维的重要程度,得到集成学习器每一维的重要程度void computeFeatureImportances(){m_featureImportances.resize(m_inputDimension);std::size_t n_trees = numberOfModels();for(std::size_t i=0;i!=m_inputDimension;++i){m_featureImportances[i] = 0;for(std::size_t j=0;j!=n_trees;++j){m_featureImportances[i] += m_models[j].featureImportances()[i];}m_featureImportances[i] /= n_trees;}}double const OOBerror() const {return m_OOBerror;}RealVector const& featureImportances() const {return m_featureImportances;}// 统计对于所有的基学习器,每一个特征在选择最优划分属性时被使用的次数UIntVector countAttributes() const {std::size_t n = m_models.size();if(!n) return UIntVector();UIntVector r = m_models[0].countAttributes();for(std::size_t i=1; i&l

这篇关于Shark源码分析(十一):随机森林算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/939114

相关文章

Go使用pprof进行CPU,内存和阻塞情况分析

《Go使用pprof进行CPU,内存和阻塞情况分析》Go语言提供了强大的pprof工具,用于分析CPU、内存、Goroutine阻塞等性能问题,帮助开发者优化程序,提高运行效率,下面我们就来深入了解下... 目录1. pprof 介绍2. 快速上手:启用 pprof3. CPU Profiling:分析 C

MySQL表锁、页面锁和行锁的作用及其优缺点对比分析

《MySQL表锁、页面锁和行锁的作用及其优缺点对比分析》MySQL中的表锁、页面锁和行锁各有特点,适用于不同的场景,表锁锁定整个表,适用于批量操作和MyISAM存储引擎,页面锁锁定数据页,适用于旧版本... 目录1. 表锁(Table Lock)2. 页面锁(Page Lock)3. 行锁(Row Lock

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1