本文主要是介绍王茂霖:数据挖掘提分三板斧!(附PPT下载),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
作者:王茂霖,华中科技大学,Datawhale成员
来源:Datawhale本文多图,建议阅读10+分钟本文作者与你分享数据挖掘的三把利器。
内容概括
数据挖掘提分三板斧:
1. 金斧-数据清洗和特征工程
2. 银斧-模型参数调节
3. 铜斧-模型集成
公众号(DatapiTHU)后台回复“20210420”获取完整PPT下载
视频地址:https://www.bilibili.com/video/BV1MU4y1h75G
Part 1 数据清洗和特征工程
一、关于数据清洗
1.缺失值处理:
2.异常值处理:
3.数据分桶:
4.数据标准化:在不同的问题中,标准化的意义不同
在回归预测中,标准化是为了让特征值有均等的权重;
在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;
主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。
数据清洗的示例:
二、关于特征工程
1.特征构造:
2.特征选择:
特征工程的示例:
Part 2 模型参数调节
一、关于建模调参
1. 理解模型
2. 性能验证
3. 模型调参
Part 3 模型集成
一、关于模型集成
1. 加权融合
2. Boosting/Bagging
3. Stacking/Blending
模型集成示例:
本文作者
王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。
参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。
访问下方地址或点击"阅读原文"查看分享:
https://tianchi.aliyun.com/specials/promotion/allcompetition
更多学习资源大家可以前往天池学习平台查看,完成从AI小白到AI新手、AI工程师和AI科学家的进阶学习。
学习地址:https://tianchi.aliyun.com/course
编辑:黄继彦
校对:王欣
这篇关于王茂霖:数据挖掘提分三板斧!(附PPT下载)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!