mmlspark.lightgbm.LightGBMClassifier参数明

本文主要是介绍mmlspark.lightgbm.LightGBMClassifier参数明，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

mmlspark.lightgbm.LightGBMClassifier 是一个用于二元分类和多类分类的机器学习模型，它是基于 Microsoft ML for Apache Spark (MMLSpark) 库的。这个类是为了在Spark环境中使用LightGBM实现，提供了大量的参数用于调整模型。下面是一些主要参数的详细中文描述：

baggingFraction (float): Bagging的比例，用于控制每次迭代时数据的采样比例。
baggingFreq (int): Bagging的频率，表示每几次迭代执行一次bagging。
baggingSeed (int): Bagging的随机种子。
binSampleCount (int): 在计算直方图bins时考虑的样本数量。
boostFromAverage (bool): 是否将初始分数调整为标签的平均值以加快收敛速度。
boostingType (object): Boosting类型，默认为gbdt（梯度提升决策树）。可选项包括gbdt、gbrt、rf（随机森林）、dart（Dropouts meet Multiple Additive Regression Trees）、goss（基于梯度的单边采样）等。
categoricalSlotIndexes (list): 分类列的索引列表，即特征列中的槽位索引。
categoricalSlotNames (list): 分类列槽位名称的列表，即特征列中的槽位名称。
chunkSize (int): 用于指定将Java数据复制到原生时的块大小。如果设置过高，可能会浪费内存；如果设置过低，可能会降低数据复制的性能。
earlyStoppingRound (int): 早停轮数，如果一定数量的迭代中，评估指标没有改善，则停止训练。
featureFraction (float): 特征采样比例，用于每次迭代时随机选择部分特征进行训练，以减少过拟合。
featuresCol (object): 特征列名称。
learningRate (float): 学习率或收缩率。
maxDepth (int): 树的最大深度。
minDataInLeaf (int): 一个叶子节点上的最小数据数量，可以用来处理过拟合。
numIterations (int): 迭代次数，LightGBM会构建num_class * num_iterations棵树。
numLeaves (int): 叶子的数量，过多会增加模型复杂度，可能导致过拟合。
objective (object): 目标函数，对于回归问题可以是regression_l2、regression_l1等，对于分类问题可以是binary、multiclass等。
predictionCol (object): 预测结果的列名。
probabilityCol (object): 预测概率的列名，注意，并非所有模型都输出校准良好的概率估计。
rawPredictionCol (object): 原始预测（即置信度）的列名。
当然，接着前面的介绍，这里补充其他一些关键参数的详细描述：
lambdaL1 (float): L1正则化项，用于控制模型的复杂度，防止过拟合。
lambdaL2 (float): L2正则化项，同样用于控制模型的复杂度，防止过拟合。
leafPredictionCol (object): 预测叶节点索引的列名。
matrixType (object): 指定构建的原生LightGBM矩阵是稀疏还是密集的，选项包括auto（自动），sparse（稀疏）或dense（密集）。默认值是auto，会根据前十行数据来决定类型。
maxBin (int): 最大的bin数量，用于特征分割。
maxBinByFeature (list): 每个特征的最大bin数量。
maxDeltaStep (float): 用于限制树叶输出的最大值。
maxDrop (int): 在一次boosting迭代中丢弃的最大树的数量。
metric (object): 在评估数据上要评估的指标。
minGainToSplit (float): 执行分割的最小增益。
minSumHessianInLeaf (float): 一个叶子节点上的最小Hessian之和。
modelString (object): 用于再训练的LightGBM模型字符串。
negBaggingFraction (float): 负Bagging比例。
numBatches (int): 如果大于0，在训练时将数据分成几个批次。
parallelism (object): 树学习的并行模式，可以设置为data_parallel或voting_parallel。
posBaggingFraction (float): 正Bagging比例。
repartitionByGroupingColumn (bool): 按分组列重新分配训练数据，默认开启。
skipDrop (float): 在boosting迭代中跳过dropout过程的概率。
slotNames (list): 特征列中槽位的名称列表。
thresholds (list): 在多类分类中调整预测每个类的概率的阈值。数组长度必须等于类的数量，值必须大于0，但最多有一个值可以是0。
timeout (float): 超时时间，以秒为单位。
topK (int): 在Voting parallel中使用的top_k值，设置更大的值可以得到更准确的结果，但会减慢训练速度。必须大于0。
uniformDrop (bool): 在dart模式中设置为true以使用均匀drop。
useBarrierExecutionMode (bool): 使用屏障执行模式，该模式使用屏障阶段，默认关闭。
useSingleDatasetMode (bool): 使用单数据集执行模式来创建每个执行器上的单个原生数据集（单例），以减少内存和通信开销。注意在本地模式运行spark时此功能被禁用。
validationIndicatorCol (object): 指示该行是用于训练还是验证的。
verbosity (int): 详细程度，小于0是Fatal，等于0是Error，等于1是Info，大于1是Debug。
weightCol (object): 权重列的名称。
xgboostDartMode (bool): 设置为true以使用xgboost的dart模式。

这些参数为用户提供了广泛的灵活性来定制和优化模型，以适应不同的数据特征和业务需求。
这些参数允许用户根据具体的数据集和任务需求调整模型的行为，以达到最佳的模型性能。

这篇关于mmlspark.lightgbm.LightGBMClassifier参数明的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

mmlspark.lightgbm.LightGBMClassifier参数明

相关文章

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

Java内存分配与JVM参数详解(推荐)

一文详解PostgreSQL复制参数

Linux高并发场景下的网络参数调优实战指南

史上最全nginx详细参数配置

SpringBoot请求参数接收控制指南分享

Python使用getopt处理命令行参数示例解析(最佳实践)

Linux内核参数配置与验证详细指南

SpringMVC获取请求参数的方法

Spring Boot项目部署命令java -jar的各种参数及作用详解