本文主要是介绍[第五名公共排行榜] LGB 连续学习 + Catboost 集成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
大家好,
首先,我想感谢竞赛组织者和所有参与讨论的人。这是@ibazhov和我在Kaggle上的第一次正式比赛,我们学到了很多,并希望未来能参与更多的比赛。
总结:
- 使用5个LGB模型进行连续更新/学习,通过.train(init_model)和.refit()方法,以及5个基于216个特征的Catboost模型。
- 通过减去指数贡献的加权和进行后处理,使得w_i * targ_i ≈ 0。
- 使用Polars进行特征生成,最终提交的模型将长滞后特征和短滞后特征分开,以便快速推理阶段可以独立计算。
总体思考
- LGB模型:多数情况下表现良好,但真正起作用的是稳健的特征选择过程。较多数量的浅层模型(在不同数据集上验证)比较少数量的深层模型产生了更稳健的输出,特别是设置extra_trees=True增加了正则化强度。
- Catboost模型:@ibazhov进行了大部分调优工作。特征修剪有时有帮助,最初模型有大约379个特征,但发现它倾向于对验证集过拟合。
- MLP(多层感知器):fc>gelu堆栈在NN解决方案中表现最佳,具有高维嵌入层(约200)用于stock_id和seconds_in_bucket,具有较高的dropout率,作为额外特征而非集
这篇关于[第五名公共排行榜] LGB 连续学习 + Catboost 集成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!