财经数据分析(第一周笔记整理)

2024-04-02 14:18

本文主要是介绍财经数据分析(第一周笔记整理),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据挖掘任务主要分为两种:描述性任务预测性任务

1.描述性任务
定义描述性任务将发掘数据中潜在的规律,找出目前可以理解与描述数据集中数据之间的联系,并刻画数据集中数据的一般特性。
描述性任务一般采用的挖掘步骤:业务理解、数据理解、数据准备(即对数据进行预处理、生成相关特征)、模型建立(即属性之间的相关性分析、关联规则分析、聚类分析等)、模型评估。

下面对这几个挖掘步骤作为详细解释
1)业务理解:确定待解决的问题(如电信用户信用度逐年下降,产品销售量逐年下降)
2)数据理解:①收集原始数据②描述数据(即对数据属性进行文字描述。产生数据描述报告)③探索数据(对数据进行基本 分析,验证数据质量,从而挖出更有用的信息,为进一步的研究指明方向,一般用可视化的方式展示,如数据分布的情况、数据的最大最小值、数据的平均值)
3)数据准备:①选择数据(并不是所有数据都适合挖掘)②清理数据(去除噪声及离群点等)③构造数据(生成新的字段或记录,如泰坦尼克号中根据乘客称谓生成的姓氏或称谓)④集成数据(对相关数据进行合并,如泰坦尼克号中将父母儿女数与兄弟姐妹数合并成家庭总人数)⑤格式化数据(使之适合数据挖掘的需要,如归一化)
4)模型建立:①选择建模技术②产生测试方案(从技术角度分析如何对模型效果进行检验)③构建模型(完成模型参数的设定,建立模型)④评估模型(对模型使用进行评价以及对各个参数做调整)

在基于规则的分类方法中有直接生成规则方法和间接生成规则方法两种,其中决策树就是间接规则的分类方法(如C5.0),在解决描述性任务时,也会用到C5.0 (C4.5算法的升级版),主要是为了产生可描述的规则,如男性且有房已婚的人不会拖欠贷款。基于规则的分类器一大优点为可解释性强

2.预测性任务
定义:通过对历史数据进行挖掘,从而对未来或其他不确定的事件进行预测

一般做预测分析时,会将数据分为两大部分。一部分是训练数据,用于构建模型,一部分是测试数据,用于检验模型。但是,有时候模型的构建过程中也需要检验模型,辅助模型构建,所以会将训练数据在分为两个部分:1)训练数据;2)验证数据(Validation Data)。验证数据用于负责模型的构建。典型的例子是用K-Fold Cross Validation裁剪决策树,求出最优叶节点数,防止过渡拟合。即
训练数据(Test Data):用于模型构建
验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。
测试数据(Test Data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合

3.其他小知识
1)决策树最大的优点是可解释性强,最大的缺点是容易过拟合,拥有不稳定性
2)弱分类器:分类器受数据集中的噪声影响较大(如决策树、神经网络)
3)对弱分类器可采用多模型融合/集成学习/多模型组合技术将多个弱分类器合成一个强分类器

对于分类预测性任务,谈谈集成学习/组合学习的方法有哪些?
第1种情况,从实例选择即从数据集的行的选择出发,可以有装袋(Bagging)(并行,即可以同时进行,因为是随机抽样,大家的权重相同),提升(Boosting)(序列,等第一个分类器生成后,根据其错误实例和未投到的实例要调整下一轮抽样的各个实例权重)
第2种情况:从特征选择(列的选择)上来说,有随机森林方法,即在特别多的特征下,可以通过特征选择来建立多棵决策树,形成森林,因为是随机选择的特征,所以叫随机森林,所以是并行集成方法
第3种情况:通过调整参数产生多个基预测模型,如神经网络的构建的网络层数和每层的隐含节点数都会对产生不同的模型,进而影响预测结果。因此还可以通过调参来产生多个模型,从而多模型组合来决定最终预测结果。
第4种情况,对于多分类预测,我们可以通过构建多个二分类预测模型,通过统计基分类器的投票数来完成分类。

基分类器又如何组合决定最终的预测结果呢?有哪些方法
① 投票法:用于分类问题,由多个学习器投票,哪个类别最多就是哪个,少数服从多数,如果出现数量相同,那就在相同中随机选择一个;
② 平均法:用于回归预测问题,对学习器的结果求算法平均,得到最终的预测结果;
③ stack法:把基学习器称为初级学习器,把用来组合的学习器称为次级学习器。Stacking 先从初始数据集训练出初级学习器,再把初级学习器的输出组合成新的数据集,用于训练次级学习器来得到最终结果。

这篇关于财经数据分析(第一周笔记整理)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/870209

相关文章

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Python变量与数据类型全解析(最新整理)

《Python变量与数据类型全解析(最新整理)》文章介绍Python变量作为数据载体,命名需遵循字母数字下划线规则,不可数字开头,大小写敏感,避免关键字,本文给大家介绍Python变量与数据类型全解析... 目录1、变量变量命名规范python数据类型1、基本数据类型数值类型(Number):布尔类型(bo

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

JAVA数组中五种常见排序方法整理汇总

《JAVA数组中五种常见排序方法整理汇总》本文给大家分享五种常用的Java数组排序方法整理,每种方法结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录前言:法一:Arrays.sort()法二:冒泡排序法三:选择排序法四:反转排序法五:直接插入排序前言:几种常用的Java数组排序

Spring Boot 常用注解整理(最全收藏版)

《SpringBoot常用注解整理(最全收藏版)》本文系统整理了常用的Spring/SpringBoot注解,按照功能分类进行介绍,每个注解都会涵盖其含义、提供来源、应用场景以及代码示例,帮助开发... 目录Spring & Spring Boot 常用注解整理一、Spring Boot 核心注解二、Spr