LambdaMART的源码分析:一(MART:回归树)

2024-02-02 14:38

本文主要是介绍LambdaMART的源码分析:一(MART:回归树),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


LambdaMART的源码分析:一(MART:回归树)
508人阅读 评论(0) 收藏 举报
本文章已收录于:
分类:
作者同类文章 X
    参考论文:
    From RankNet to LambdaRank to LambdaMART: An Overview(公式主要引用这个)
    GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE (MART的思想)
    Adapting boosting for information retrieval measures


    回归树:
    1.思想(参考李航的《统计学习方法》的5.51节CART生成)
    注意:这里的回归树,每次split的时候,都是为了选择最优的feature和切分点, 这里的切分点,只会按照该feature,把数据集一分为二
    2.回归树实现(ciir.umass.edu.learning.tree.RegressionTree 二叉树)
    参数介绍:
    int nLeaves //控制分裂的次数, 这个次数是按照节点来算的,而不是按照层数来计算的,例如,2个叶子的时候,分裂1次;3个叶子的时候,分裂2次;4个叶子的时候,分裂3次。N个叶子,分裂N-1次。
    DataPoint[] trainingSamples //训练的数据点
    double[] labels //这里的lables就是y值,在lambdaMART里为lambda值
    FeatureHistogram hist,
    int minLeafSupport //控制分裂的次数,如果某个节点所包含的训练数据小于2* minLeafSupport ,则该节点不再分裂。

    fit方法
    根据输入的数据以及lable值,生成回归树。


    辅助类:
    ciir.umass.edu.learning.tree.FeatureHistogram来选择每次split时的最优feature和最优划分点

    construct方法:
    sum[i][j] : 指定feature i 的所有值(训练数据中出现的值),每个j代表一个训练数据中出现的一个值,
    sum[i][j]的值为feature i 的所有小于某个指定值(该值由threshold[j]提供)的训练数据                                datapoint的label(该算法里为lambda)之和。
    count[i][j]:  
    指定feature i 的所有值(训练数据中出现的值),每个j代表一个训练数据中出现的一个值,
    sum[i][j]的值为feature i 的所有小于某个指定值(该值由threshold[j]提供)的训练数据                               datapoint的总数。

    update方法:
    用新的label更新sum[i][j]


    findBestSplit方法:
    a.选取feature作为划分的备选(可全选,可选部分)。
    b.选取最优feature和最优划分点
    计算每个feature的每个划分点,
       double S = sumLeft * sumLeft / countLeft + sumRight * sumRight / countRight;
    最小的S即为最优feature和最优划分点s(该s是feature的具体值)。
    sumLeft是该节点下某个feature的值小于指定值(备选s)的所有训练数据的lambad之和。
    countLeft是 该节点下某个feature的值小于指定值(备选s)的所有训练数据的总数。
    sumRight 是该节点下某个feature的值大于等于指定值(备选s)的所有训练数据的lambad之和。
    countRight是该节点下某个feature的值大于等于指定值(备选s)的所有训练数据的总数。

    这里非常不理解,参考CART的资料,均不是按照这种方式来分裂的,希望有朋友能够帮忙解释一下
    int countLeft = count[i][t];
    int countRight = totalCount - countLeft;
    double sumLeft = sum[i][t];
    double sumRight = sumResponse - sumLeft;
    double S = sumLeft * sumLeft / countLeft + sumRight * sumRight / countRight;
    if(cfg.S < S)
    {
    cfg.S = S;
    cfg.featureIdx = i;
    cfg.thresholdIdx = t;
    }

    通过学习LambdaMART的思路,构建树的时候,输入为(xi,lambdai),其中lambdai代表着对xi的评分(影响排序结果,是增大还是减少)。
    最好的划分点,就是把增大的划分到一起(全部为正值,相加结果为sumA),减少的划分到一起(全部为负值,相加结果为sumb).
    此时的sumA*sumA/countA+sumB*sumB/countB为最大。
    因此,这里的S的含义为:该划分点尽量把正值和负值区分开。 正值表示:后续评分调大;负值表示:后续评分调小;


    lambdai就是si从newTree中获取的值,表示si的值如何调整才能满足C最大(类似梯度)。
    C表示的是排序后的NDCG,求其最大值。

    Sim=Sim-1+lambdai
    Sim-1为经过m-1棵树之后,i的评分;
    Sim为经过m棵树之后,i的评分;
    lambdai就是第m棵树对i的影响,决定了评分是增大,还是减少

    这篇关于LambdaMART的源码分析:一(MART:回归树)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



    http://www.chinasem.cn/article/671018

    相关文章

    Java调用C++动态库超详细步骤讲解(附源码)

    《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

    kotlin中const 和val的区别及使用场景分析

    《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

    Go标准库常见错误分析和解决办法

    《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

    Python实现无痛修改第三方库源码的方法详解

    《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

    Spring事务中@Transactional注解不生效的原因分析与解决

    《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

    找不到Anaconda prompt终端的原因分析及解决方案

    《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

    Spring定时任务只执行一次的原因分析与解决方案

    《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

    C++ 各种map特点对比分析

    《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑

    Spring、Spring Boot、Spring Cloud 的区别与联系分析

    《Spring、SpringBoot、SpringCloud的区别与联系分析》Spring、SpringBoot和SpringCloud是Java开发中常用的框架,分别针对企业级应用开发、快速开... 目录1. Spring 框架2. Spring Boot3. Spring Cloud总结1. Sprin

    Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

    《Spring中BeanFactoryPostProcessor的作用和示例源码分析》Spring的BeanFactoryPostProcessor是容器初始化的扩展接口,允许在Bean实例化前... 目录一、概览1. 核心定位2. 核心功能详解3. 关键特性二、Spring 内置的 BeanFactory