LambdaMART的源码分析:一(MART:回归树)

2024-02-02 14:38

本文主要是介绍LambdaMART的源码分析:一(MART:回归树),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


LambdaMART的源码分析:一(MART:回归树)
508人阅读 评论(0) 收藏 举报
本文章已收录于:
分类:
作者同类文章 X
    参考论文:
    From RankNet to LambdaRank to LambdaMART: An Overview(公式主要引用这个)
    GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE (MART的思想)
    Adapting boosting for information retrieval measures


    回归树:
    1.思想(参考李航的《统计学习方法》的5.51节CART生成)
    注意:这里的回归树,每次split的时候,都是为了选择最优的feature和切分点, 这里的切分点,只会按照该feature,把数据集一分为二
    2.回归树实现(ciir.umass.edu.learning.tree.RegressionTree 二叉树)
    参数介绍:
    int nLeaves //控制分裂的次数, 这个次数是按照节点来算的,而不是按照层数来计算的,例如,2个叶子的时候,分裂1次;3个叶子的时候,分裂2次;4个叶子的时候,分裂3次。N个叶子,分裂N-1次。
    DataPoint[] trainingSamples //训练的数据点
    double[] labels //这里的lables就是y值,在lambdaMART里为lambda值
    FeatureHistogram hist,
    int minLeafSupport //控制分裂的次数,如果某个节点所包含的训练数据小于2* minLeafSupport ,则该节点不再分裂。

    fit方法
    根据输入的数据以及lable值,生成回归树。


    辅助类:
    ciir.umass.edu.learning.tree.FeatureHistogram来选择每次split时的最优feature和最优划分点

    construct方法:
    sum[i][j] : 指定feature i 的所有值(训练数据中出现的值),每个j代表一个训练数据中出现的一个值,
    sum[i][j]的值为feature i 的所有小于某个指定值(该值由threshold[j]提供)的训练数据                                datapoint的label(该算法里为lambda)之和。
    count[i][j]:  
    指定feature i 的所有值(训练数据中出现的值),每个j代表一个训练数据中出现的一个值,
    sum[i][j]的值为feature i 的所有小于某个指定值(该值由threshold[j]提供)的训练数据                               datapoint的总数。

    update方法:
    用新的label更新sum[i][j]


    findBestSplit方法:
    a.选取feature作为划分的备选(可全选,可选部分)。
    b.选取最优feature和最优划分点
    计算每个feature的每个划分点,
       double S = sumLeft * sumLeft / countLeft + sumRight * sumRight / countRight;
    最小的S即为最优feature和最优划分点s(该s是feature的具体值)。
    sumLeft是该节点下某个feature的值小于指定值(备选s)的所有训练数据的lambad之和。
    countLeft是 该节点下某个feature的值小于指定值(备选s)的所有训练数据的总数。
    sumRight 是该节点下某个feature的值大于等于指定值(备选s)的所有训练数据的lambad之和。
    countRight是该节点下某个feature的值大于等于指定值(备选s)的所有训练数据的总数。

    这里非常不理解,参考CART的资料,均不是按照这种方式来分裂的,希望有朋友能够帮忙解释一下
    int countLeft = count[i][t];
    int countRight = totalCount - countLeft;
    double sumLeft = sum[i][t];
    double sumRight = sumResponse - sumLeft;
    double S = sumLeft * sumLeft / countLeft + sumRight * sumRight / countRight;
    if(cfg.S < S)
    {
    cfg.S = S;
    cfg.featureIdx = i;
    cfg.thresholdIdx = t;
    }

    通过学习LambdaMART的思路,构建树的时候,输入为(xi,lambdai),其中lambdai代表着对xi的评分(影响排序结果,是增大还是减少)。
    最好的划分点,就是把增大的划分到一起(全部为正值,相加结果为sumA),减少的划分到一起(全部为负值,相加结果为sumb).
    此时的sumA*sumA/countA+sumB*sumB/countB为最大。
    因此,这里的S的含义为:该划分点尽量把正值和负值区分开。 正值表示:后续评分调大;负值表示:后续评分调小;


    lambdai就是si从newTree中获取的值,表示si的值如何调整才能满足C最大(类似梯度)。
    C表示的是排序后的NDCG,求其最大值。

    Sim=Sim-1+lambdai
    Sim-1为经过m-1棵树之后,i的评分;
    Sim为经过m棵树之后,i的评分;
    lambdai就是第m棵树对i的影响,决定了评分是增大,还是减少

    这篇关于LambdaMART的源码分析:一(MART:回归树)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



    http://www.chinasem.cn/article/671018

    相关文章

    Java汇编源码如何查看环境搭建

    《Java汇编源码如何查看环境搭建》:本文主要介绍如何在IntelliJIDEA开发环境中搭建字节码和汇编环境,以便更好地进行代码调优和JVM学习,首先,介绍了如何配置IntelliJIDEA以方... 目录一、简介二、在IDEA开发环境中搭建汇编环境2.1 在IDEA中搭建字节码查看环境2.1.1 搭建步

    Redis主从复制实现原理分析

    《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

    锐捷和腾达哪个好? 两个品牌路由器对比分析

    《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

    Spring中Bean有关NullPointerException异常的原因分析

    《Spring中Bean有关NullPointerException异常的原因分析》在Spring中使用@Autowired注解注入的bean不能在静态上下文中访问,否则会导致NullPointerE... 目录Spring中Bean有关NullPointerException异常的原因问题描述解决方案总结

    python中的与时间相关的模块应用场景分析

    《python中的与时间相关的模块应用场景分析》本文介绍了Python中与时间相关的几个重要模块:`time`、`datetime`、`calendar`、`timeit`、`pytz`和`dateu... 目录1. time 模块2. datetime 模块3. calendar 模块4. timeit

    python-nmap实现python利用nmap进行扫描分析

    《python-nmap实现python利用nmap进行扫描分析》Nmap是一个非常用的网络/端口扫描工具,如果想将nmap集成进你的工具里,可以使用python-nmap这个python库,它提供了... 目录前言python-nmap的基本使用PortScanner扫描PortScannerAsync异

    Oracle数据库执行计划的查看与分析技巧

    《Oracle数据库执行计划的查看与分析技巧》在Oracle数据库中,执行计划能够帮助我们深入了解SQL语句在数据库内部的执行细节,进而优化查询性能、提升系统效率,执行计划是Oracle数据库优化器为... 目录一、什么是执行计划二、查看执行计划的方法(一)使用 EXPLAIN PLAN 命令(二)通过 S

    性能分析之MySQL索引实战案例

    文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

    JAVA智听未来一站式有声阅读平台听书系统小程序源码

    智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

    Java ArrayList扩容机制 (源码解读)

    结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL