财经数据分析(第一周笔记整理)

2024-04-02 14:18

本文主要是介绍财经数据分析(第一周笔记整理),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据挖掘任务主要分为两种:描述性任务预测性任务

1.描述性任务
定义描述性任务将发掘数据中潜在的规律,找出目前可以理解与描述数据集中数据之间的联系,并刻画数据集中数据的一般特性。
描述性任务一般采用的挖掘步骤:业务理解、数据理解、数据准备(即对数据进行预处理、生成相关特征)、模型建立(即属性之间的相关性分析、关联规则分析、聚类分析等)、模型评估。

下面对这几个挖掘步骤作为详细解释
1)业务理解:确定待解决的问题(如电信用户信用度逐年下降,产品销售量逐年下降)
2)数据理解:①收集原始数据②描述数据(即对数据属性进行文字描述。产生数据描述报告)③探索数据(对数据进行基本 分析,验证数据质量,从而挖出更有用的信息,为进一步的研究指明方向,一般用可视化的方式展示,如数据分布的情况、数据的最大最小值、数据的平均值)
3)数据准备:①选择数据(并不是所有数据都适合挖掘)②清理数据(去除噪声及离群点等)③构造数据(生成新的字段或记录,如泰坦尼克号中根据乘客称谓生成的姓氏或称谓)④集成数据(对相关数据进行合并,如泰坦尼克号中将父母儿女数与兄弟姐妹数合并成家庭总人数)⑤格式化数据(使之适合数据挖掘的需要,如归一化)
4)模型建立:①选择建模技术②产生测试方案(从技术角度分析如何对模型效果进行检验)③构建模型(完成模型参数的设定,建立模型)④评估模型(对模型使用进行评价以及对各个参数做调整)

在基于规则的分类方法中有直接生成规则方法和间接生成规则方法两种,其中决策树就是间接规则的分类方法(如C5.0),在解决描述性任务时,也会用到C5.0 (C4.5算法的升级版),主要是为了产生可描述的规则,如男性且有房已婚的人不会拖欠贷款。基于规则的分类器一大优点为可解释性强

2.预测性任务
定义:通过对历史数据进行挖掘,从而对未来或其他不确定的事件进行预测

一般做预测分析时,会将数据分为两大部分。一部分是训练数据,用于构建模型,一部分是测试数据,用于检验模型。但是,有时候模型的构建过程中也需要检验模型,辅助模型构建,所以会将训练数据在分为两个部分:1)训练数据;2)验证数据(Validation Data)。验证数据用于负责模型的构建。典型的例子是用K-Fold Cross Validation裁剪决策树,求出最优叶节点数,防止过渡拟合。即
训练数据(Test Data):用于模型构建
验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。
测试数据(Test Data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合

3.其他小知识
1)决策树最大的优点是可解释性强,最大的缺点是容易过拟合,拥有不稳定性
2)弱分类器:分类器受数据集中的噪声影响较大(如决策树、神经网络)
3)对弱分类器可采用多模型融合/集成学习/多模型组合技术将多个弱分类器合成一个强分类器

对于分类预测性任务,谈谈集成学习/组合学习的方法有哪些?
第1种情况,从实例选择即从数据集的行的选择出发,可以有装袋(Bagging)(并行,即可以同时进行,因为是随机抽样,大家的权重相同),提升(Boosting)(序列,等第一个分类器生成后,根据其错误实例和未投到的实例要调整下一轮抽样的各个实例权重)
第2种情况:从特征选择(列的选择)上来说,有随机森林方法,即在特别多的特征下,可以通过特征选择来建立多棵决策树,形成森林,因为是随机选择的特征,所以叫随机森林,所以是并行集成方法
第3种情况:通过调整参数产生多个基预测模型,如神经网络的构建的网络层数和每层的隐含节点数都会对产生不同的模型,进而影响预测结果。因此还可以通过调参来产生多个模型,从而多模型组合来决定最终预测结果。
第4种情况,对于多分类预测,我们可以通过构建多个二分类预测模型,通过统计基分类器的投票数来完成分类。

基分类器又如何组合决定最终的预测结果呢?有哪些方法
① 投票法:用于分类问题,由多个学习器投票,哪个类别最多就是哪个,少数服从多数,如果出现数量相同,那就在相同中随机选择一个;
② 平均法:用于回归预测问题,对学习器的结果求算法平均,得到最终的预测结果;
③ stack法:把基学习器称为初级学习器,把用来组合的学习器称为次级学习器。Stacking 先从初始数据集训练出初级学习器,再把初级学习器的输出组合成新的数据集,用于训练次级学习器来得到最终结果。

这篇关于财经数据分析(第一周笔记整理)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/870209

相关文章

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi

取得 Git 仓库 —— Git 学习笔记 04

取得 Git 仓库 —— Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区、索引、本地版本库之间的交互;二是本地版本库和远程版本库之间的交互。第一块是基础,第二块是难点。 下面,我们就围绕着第一部分内容来学习,先不考虑远程仓库,只考虑本地仓库。 怎样取得项目的 Git 仓库? 有两种取得 Git 项目仓库的方法。第一种是在本地创建一个新的仓库,第二种是把其他地方的某个