mmlspark.lightgbm.LightGBMClassifier参数明

2024-03-09 00:04

本文主要是介绍mmlspark.lightgbm.LightGBMClassifier参数明,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

mmlspark.lightgbm.LightGBMClassifier 是一个用于二元分类和多类分类的机器学习模型,它是基于 Microsoft ML for Apache Spark (MMLSpark) 库的。这个类是为了在Spark环境中使用LightGBM实现,提供了大量的参数用于调整模型。下面是一些主要参数的详细中文描述:

  • baggingFraction (float): Bagging的比例,用于控制每次迭代时数据的采样比例。

  • baggingFreq (int): Bagging的频率,表示每几次迭代执行一次bagging。

  • baggingSeed (int): Bagging的随机种子。

  • binSampleCount (int): 在计算直方图bins时考虑的样本数量。

  • boostFromAverage (bool): 是否将初始分数调整为标签的平均值以加快收敛速度。

  • boostingType (object): Boosting类型,默认为gbdt(梯度提升决策树)。可选项包括gbdtgbrtrf(随机森林)、dart(Dropouts meet Multiple Additive Regression Trees)、goss(基于梯度的单边采样)等。

  • categoricalSlotIndexes (list): 分类列的索引列表,即特征列中的槽位索引。

  • categoricalSlotNames (list): 分类列槽位名称的列表,即特征列中的槽位名称。

  • chunkSize (int): 用于指定将Java数据复制到原生时的块大小。如果设置过高,可能会浪费内存;如果设置过低,可能会降低数据复制的性能。

  • earlyStoppingRound (int): 早停轮数,如果一定数量的迭代中,评估指标没有改善,则停止训练。

  • featureFraction (float): 特征采样比例,用于每次迭代时随机选择部分特征进行训练,以减少过拟合。

  • featuresCol (object): 特征列名称。

  • learningRate (float): 学习率或收缩率。

  • maxDepth (int): 树的最大深度。

  • minDataInLeaf (int): 一个叶子节点上的最小数据数量,可以用来处理过拟合。

  • numIterations (int): 迭代次数,LightGBM会构建num_class * num_iterations棵树。

  • numLeaves (int): 叶子的数量,过多会增加模型复杂度,可能导致过拟合。

  • objective (object): 目标函数,对于回归问题可以是regression_l2regression_l1等,对于分类问题可以是binarymulticlass等。

  • predictionCol (object): 预测结果的列名。

  • probabilityCol (object): 预测概率的列名,注意,并非所有模型都输出校准良好的概率估计。

  • rawPredictionCol (object): 原始预测(即置信度)的列名。
    当然,接着前面的介绍,这里补充其他一些关键参数的详细描述:

  • lambdaL1 (float): L1正则化项,用于控制模型的复杂度,防止过拟合。

  • lambdaL2 (float): L2正则化项,同样用于控制模型的复杂度,防止过拟合。

  • leafPredictionCol (object): 预测叶节点索引的列名。

  • matrixType (object): 指定构建的原生LightGBM矩阵是稀疏还是密集的,选项包括auto(自动),sparse(稀疏)或dense(密集)。默认值是auto,会根据前十行数据来决定类型。

  • maxBin (int): 最大的bin数量,用于特征分割。

  • maxBinByFeature (list): 每个特征的最大bin数量。

  • maxDeltaStep (float): 用于限制树叶输出的最大值。

  • maxDrop (int): 在一次boosting迭代中丢弃的最大树的数量。

  • metric (object): 在评估数据上要评估的指标。

  • minGainToSplit (float): 执行分割的最小增益。

  • minSumHessianInLeaf (float): 一个叶子节点上的最小Hessian之和。

  • modelString (object): 用于再训练的LightGBM模型字符串。

  • negBaggingFraction (float): 负Bagging比例。

  • numBatches (int): 如果大于0,在训练时将数据分成几个批次。

  • parallelism (object): 树学习的并行模式,可以设置为data_parallelvoting_parallel

  • posBaggingFraction (float): 正Bagging比例。

  • repartitionByGroupingColumn (bool): 按分组列重新分配训练数据,默认开启。

  • skipDrop (float): 在boosting迭代中跳过dropout过程的概率。

  • slotNames (list): 特征列中槽位的名称列表。

  • thresholds (list): 在多类分类中调整预测每个类的概率的阈值。数组长度必须等于类的数量,值必须大于0,但最多有一个值可以是0。

  • timeout (float): 超时时间,以秒为单位。

  • topK (int): 在Voting parallel中使用的top_k值,设置更大的值可以得到更准确的结果,但会减慢训练速度。必须大于0。

  • uniformDrop (bool): 在dart模式中设置为true以使用均匀drop。

  • useBarrierExecutionMode (bool): 使用屏障执行模式,该模式使用屏障阶段,默认关闭。

  • useSingleDatasetMode (bool): 使用单数据集执行模式来创建每个执行器上的单个原生数据集(单例),以减少内存和通信开销。注意在本地模式运行spark时此功能被禁用。

  • validationIndicatorCol (object): 指示该行是用于训练还是验证的。

  • verbosity (int): 详细程度,小于0是Fatal,等于0是Error,等于1是Info,大于1是Debug。

  • weightCol (object): 权重列的名称。

  • xgboostDartMode (bool): 设置为true以使用xgboost的dart模式。

这些参数为用户提供了广泛的灵活性来定制和优化模型,以适应不同的数据特征和业务需求。
这些参数允许用户根据具体的数据集和任务需求调整模型的行为,以达到最佳的模型性能。

这篇关于mmlspark.lightgbm.LightGBMClassifier参数明的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/788861

相关文章

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

详解Spring Boot接收参数的19种方式

《详解SpringBoot接收参数的19种方式》SpringBoot提供了多种注解来接收不同类型的参数,本文给大家介绍SpringBoot接收参数的19种方式,感兴趣的朋友跟随小编一起看看吧... 目录SpringBoot接受参数相关@PathVariable注解@RequestHeader注解@Reque

Java向kettle8.0传递参数的方式总结

《Java向kettle8.0传递参数的方式总结》介绍了如何在Kettle中传递参数到转换和作业中,包括设置全局properties、使用TransMeta和JobMeta的parameterValu... 目录1.传递参数到转换中2.传递参数到作业中总结1.传递参数到转换中1.1. 通过设置Trans的

java如何调用kettle设置变量和参数

《java如何调用kettle设置变量和参数》文章简要介绍了如何在Java中调用Kettle,并重点讨论了变量和参数的区别,以及在Java代码中如何正确设置和使用这些变量,避免覆盖Kettle中已设置... 目录Java调用kettle设置变量和参数java代码中变量会覆盖kettle里面设置的变量总结ja

spring 参数校验Validation示例详解

《spring参数校验Validation示例详解》Spring提供了Validation工具类来实现对客户端传来的请求参数的有效校验,本文给大家介绍spring参数校验Validation示例详... 目录前言一、Validation常见的校验注解二、Validation的简单应用三、分组校验四、自定义校

SpringBoot中Get请求和POST请求接收参数示例详解

《SpringBoot中Get请求和POST请求接收参数示例详解》文章详细介绍了SpringBoot中Get请求和POST请求的参数接收方式,包括方法形参接收参数、实体类接收参数、HttpServle... 目录1、Get请求1.1 方法形参接收参数 这种方式一般适用参数比较少的情况,并且前后端参数名称必须

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�