本文主要是介绍财经数据分析(第一周笔记整理),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
数据挖掘任务主要分为两种:描述性任务和预测性任务
1.描述性任务
定义:描述性任务将发掘数据中潜在的规律,找出目前可以理解与描述数据集中数据之间的联系,并刻画数据集中数据的一般特性。
描述性任务一般采用的挖掘步骤:业务理解、数据理解、数据准备(即对数据进行预处理、生成相关特征)、模型建立(即属性之间的相关性分析、关联规则分析、聚类分析等)、模型评估。
下面对这几个挖掘步骤作为详细解释:
1)业务理解:确定待解决的问题(如电信用户信用度逐年下降,产品销售量逐年下降)
2)数据理解:①收集原始数据②描述数据(即对数据属性进行文字描述。产生数据描述报告)③探索数据(对数据进行基本 分析,验证数据质量,从而挖出更有用的信息,为进一步的研究指明方向,一般用可视化的方式展示,如数据分布的情况、数据的最大最小值、数据的平均值)
3)数据准备:①选择数据(并不是所有数据都适合挖掘)②清理数据(去除噪声及离群点等)③构造数据(生成新的字段或记录,如泰坦尼克号中根据乘客称谓生成的姓氏或称谓)④集成数据(对相关数据进行合并,如泰坦尼克号中将父母儿女数与兄弟姐妹数合并成家庭总人数)⑤格式化数据(使之适合数据挖掘的需要,如归一化)
4)模型建立:①选择建模技术②产生测试方案(从技术角度分析如何对模型效果进行检验)③构建模型(完成模型参数的设定,建立模型)④评估模型(对模型使用进行评价以及对各个参数做调整)
在基于规则的分类方法中有直接生成规则方法和间接生成规则方法两种,其中决策树就是间接规则的分类方法(如C5.0),在解决描述性任务时,也会用到C5.0 (C4.5算法的升级版),主要是为了产生可描述的规则,如男性且有房已婚的人不会拖欠贷款。基于规则的分类器一大优点为可解释性强
2.预测性任务
定义:通过对历史数据进行挖掘,从而对未来或其他不确定的事件进行预测
一般做预测分析时,会将数据分为两大部分。一部分是训练数据,用于构建模型,一部分是测试数据,用于检验模型。但是,有时候模型的构建过程中也需要检验模型,辅助模型构建,所以会将训练数据在分为两个部分:1)训练数据;2)验证数据(Validation Data)。验证数据用于负责模型的构建。典型的例子是用K-Fold Cross Validation裁剪决策树,求出最优叶节点数,防止过渡拟合。即
训练数据(Test Data):用于模型构建
验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。
测试数据(Test Data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合
3.其他小知识
1)决策树最大的优点是可解释性强,最大的缺点是容易过拟合,拥有不稳定性
2)弱分类器:分类器受数据集中的噪声影响较大(如决策树、神经网络)
3)对弱分类器可采用多模型融合/集成学习/多模型组合技术将多个弱分类器合成一个强分类器
对于分类预测性任务,谈谈集成学习/组合学习的方法有哪些?
第1种情况,从实例选择即从数据集的行的选择出发,可以有装袋(Bagging)(并行,即可以同时进行,因为是随机抽样,大家的权重相同),提升(Boosting)(序列,等第一个分类器生成后,根据其错误实例和未投到的实例要调整下一轮抽样的各个实例权重)
第2种情况:从特征选择(列的选择)上来说,有随机森林方法,即在特别多的特征下,可以通过特征选择来建立多棵决策树,形成森林,因为是随机选择的特征,所以叫随机森林,所以是并行集成方法
第3种情况:通过调整参数产生多个基预测模型,如神经网络的构建的网络层数和每层的隐含节点数都会对产生不同的模型,进而影响预测结果。因此还可以通过调参来产生多个模型,从而多模型组合来决定最终预测结果。
第4种情况,对于多分类预测,我们可以通过构建多个二分类预测模型,通过统计基分类器的投票数来完成分类。
基分类器又如何组合决定最终的预测结果呢?有哪些方法?
① 投票法:用于分类问题,由多个学习器投票,哪个类别最多就是哪个,少数服从多数,如果出现数量相同,那就在相同中随机选择一个;
② 平均法:用于回归预测问题,对学习器的结果求算法平均,得到最终的预测结果;
③ stack法:把基学习器称为初级学习器,把用来组合的学习器称为次级学习器。Stacking 先从初始数据集训练出初级学习器,再把初级学习器的输出组合成新的数据集,用于训练次级学习器来得到最终结果。
这篇关于财经数据分析(第一周笔记整理)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!