Kaggle竞赛Santander 客户满意

2023-12-18 13:20

本文主要是介绍Kaggle竞赛Santander 客户满意,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Kaggle竞赛Santander 客户满意

Banco Santander 获得了数据科学社区Kaggle最近主办竞赛的帮助。本次大赛的主要目标是建立一个区分满意和不满意客户的预测模型。
银行提供训练和测试数据集。训练数据集提供客户满意度的指标。参赛者要求使用此数据集建立,调整模型,成功预测没有提供满意度指标的测试集。

训练集包含369个匿名变量,和76818观测值。

数据

变量可用信息较少。只有数据结构和变量名称的特别提示提供深入了解如何最好的预处理数据。事项复杂,因为它是目前尚不清楚哪些变量是分类的,哪些是连续的。此外,在数据集中的一些变量完全无用。我们观察到的数据在很大程度上是不平衡的。训练集包含大约73000客户满意度和大约3000名不满的客户。

研究表明,预测变量包含整数变量全是分类变量而其余的变量是连续的。利用这种方法,我们就分开分类变量和连续变量。因此我们确定分类变量,对连续变量应用中心化和标准化进程,以消除以后的模型拟合​​因为量纲带来的任何不必要的影响。我们还检查分类变量的方差为零,以识别并删除那些所有观测值只存在一个值的。

模型

我们通过对问题施加高精度模型来评估预测的最大程度。我们最初的努力包括提高运行boosted tree模型和深度学习模型。

Xgboost - Sricharan Maddineni

极端梯度提升是一个功能强大的机器学习算法,在回归,分类和排名的过人之处。 Xgboost使我们能够实现简单的预测模型。梯度提升通过创建数百个树模型,加法产生一种高静的预测模型。 Xgboost的一个缺点是它只能处理数字矩阵,但在Santander 数据集不是问题问题,因为所有的样本是数字。 Xgboost算法还适合稀疏模型矩阵,因为观测值被表示为1或0,这简化了计算需求。
xgboost的关键是通过定义目标函数找到正确的参数来衡量模型的性能。对于目标函数的方程给出如下:
Obj(Θ)=L(Θ)+Ω(Θ)
其中L是训练损失函数和Ω为正则化项。

正则项控制模型的复杂度,并有助于避免过度拟合。对于这个特定的kaggle竞赛,AUC进行了优化,但更普遍的是使用logistic损失。

Xgboost是ensembling树模型,其中每个树的预测分数归纳起来得到最终的比分。此外,我们得到CART得分而不是分类变量。
数学上,这被表示为:


其中K是tree的数量,F是所有CART树的集合,f是函数空间F的函数
目标函数因此可以写为:

创建稀疏模型矩阵:

Xgboost模型代码:

Xgboost特征重要性:

GBM 模型 - Mike Todisco

GBM是一个用于分类和回归预测建模算法。在这种情况下,我们使用决策树作为基础,这是主要的用法,但GBM可以采取其它形式,例如线性。该模型是boosted,算法上结合许多弱模型,梯度提升迭代计算残差以提高精确度。 GBM与其他高端算法相比,性能可靠。我们没有丢失任何数据,但GBM足够强大处理NA。 GBM也使得任何缩放或正态化是不必要的。

GBM的包有几个可以运行的损失函数。两个常用损失函数是伯努利和Adaboost。伯努利是0和1的logistic损失函数。 Adaboost算法为0和1的一个指数损失函数。

在GBM模型有许多参数调整。下面是比较重要的几个:

•树的数量

•Shrinkage - 这也被称为学习率,根据损失梯度决定算法移动多快

•深度 - 每棵树将评估的决策数量

•最小观测 - 决定了产生一个叶节点的观测次数

•Cv.Folds - 运行交叉验证的数目
Adaboost 代码:

Bernoulli 代码:

随机森林- Matt Samelson
我们可以在R Caret 包中的训练函数优化随机林模型的参数。这种封装函数提供基本包没有的强大分析和优化特性。

在这种情况下我们选择使用R基本ranger 包生成森林。

为了最大化计算资源选出调整三个参数,每一轮的树的数量,最大树深度,树的样本。参数的范围可以在下面显示的代码中找到。

我们还采用了五折交叉验证,进一步优化模型。总体模型结果可以在博客文章的末尾汇总表中可以看出。

模型结果:

Model and ParameterXGBoostAdaboostNeural NetBernoulliRF
AUC0.8407710.8392050.8210.8208720.787

这篇关于Kaggle竞赛Santander 客户满意的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/508533

相关文章

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

2024年AMC10美国数学竞赛倒计时两个月:吃透1250道真题和知识点(持续)

根据通知,2024年AMC10美国数学竞赛的报名还有两周,正式比赛还有两个月就要开始了。计划参赛的孩子们要记好时间,认真备考,最后冲刺再提高成绩。 那么如何备考2024年AMC10美国数学竞赛呢?做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一。通过做真题,可以帮助孩子找到真实竞赛的感觉,而且更加贴近比赛的内容,可以通过真题查漏补缺,更有针对性的补齐知识的短板。

2024 年高教社杯全国大学生数学建模竞赛题目——2024 年高教社杯全国大学生数学建模竞赛题目的求解

2024 年高教社杯全国大学生数学建模竞赛题目 (请先阅读“ 全国大学生数学建模竞赛论文格式规范 ”) 2024 年高教社杯全国大学生数学建模竞赛题目 随着城市化进程的加快、机动车的快速普及, 以及人们活动范围的不断扩大,城市道 路交通拥堵问题日渐严重,即使在一些非中心城市,道路交通拥堵问题也成为影响地方经 济发展和百姓幸福感的一个“痛点”,是相关部门的棘手难题之一。 考虑一个拥有知名景区

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保

kaggle竞赛宝典 | Mamba模型综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。 原文链接:Mamba模型综述! 型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。 最近,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案

【数据库实战】1_Oracle_命中关联人或黑名单或反洗钱客户

一、字段名称 1、CST_ID :客户编号 2、IDV_LGL_NM :客户姓名 3、关联方标志 RELPARTY_IND,0-否 未命中,1-是 命中 4、TBPC1010表,RSRV_FLD1_INF(备用字段)中的 第6位:黑名单标志,0无,1是。 第10位:反洗钱风险等级1-5。 反洗钱风险等级5级: 1级-低风险客户 2级-较低风险客户 3级-中风险客户 4级-较高风险客户 5级-高风

上海市计算机学会竞赛平台2024年7月月赛丙组求和问题

题目描述 给定 nn 个整数 a1,a2,…,ana1​,a2​,…,an​,请问这个序列最长有多少长的前缀,满足元素的和大于或等于 00?如果任何长度大于 00 的前缀之和都为负数,则输出 00 输入格式 第一行:单个整数表示 nn第二行:nn 个整数表示 a1,a2,…,ana1​,a2​,…,an​ 输出格式 单个整数:表示最长的前缀长度,使得前缀的和大于等于 00 数据范围

2024 年高教社杯全国大学生数学建模竞赛题目【A/B/C/D/E题】完整论文+代码+结果

编辑 2024国赛A题参考论文https://download.csdn.net/download/qq_52590045/897183672024国赛D题参考论文https://download.csdn.net/download/qq_52590045/897158482024国赛E题参考论文https://download.c

上海市计算机学会竞赛平台2024年8月月赛丙组等差数列的素性

题目描述 给定三个整数 nn,aa 与 dd,表示一个项数为 nn 的等差数列,首项为 aa,公差为 dd。 请统计,从这个等差数列中有多少数字是素数 输入格式 三个整数: nn,aa 与 dd 输出格式 单个整数:表示素数数量 数据范围 50%50% 的数据,1≤n≤10001≤n≤1000100%100% 的数据,1≤n≤100001≤n≤100001≤d≤10001≤d≤10