股票数据集2-纳斯达克NASDAQ 100 分析

2024-06-09 19:28

本文主要是介绍股票数据集2-纳斯达克NASDAQ 100 分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 数据清洗

  • 用邻近均值的方法,去掉Non_Padding中的NaN数据

    • 这里没用df.fillna(), 因为其只有前向(ffill )和 后向 (bfill) 插值,不适合大量连续的NaN

    • pd转换为np,写一个函数, 返回np数组的空值,lambda的匿名函数返回y轴空值的索引

代码和输出如下:

#数据清洗,去除NaN数据,用邻近均值做填充(padding)
df = pd.read_csv(full) # nrows=3
columns = df.columns
print(df.shape)
print(df.columns)print(df.iloc[:5,:8])
def nan_helper(y):return np.isnan(y), lambda z: z.nonzero()[0]data = df.to_numpy()
for col in range(data.shape[1]):nans, x = nan_helper(data[:,col])data[nans,col] = np.interp(x(nans),x(~nans),data[~nans,col])df = pd.DataFrame(data,columns = columns)
print(df[:5,:8]) # .round(4)

在这里插入图片描述

2.数据可视化

  • 画出n个公司的走势,对比指数的走势
    在这里插入图片描述
    在这里插入图片描述
  • 画出index, date, close, high, low, open, volume的走势,分析close与其他特征

单只股票AAL的3天走势图(2016-07-26-29),共七个特征:
在这里插入图片描述

  • 特征1是连续时间,特征2是当天时间

  • 后面四个是股价特征(收盘价、最高价、最低价、开盘价),其都是1分钟内的特征值,所以整体相似

  • 最后一个是成交量

3.特征选择-相关性分析

3.0 前后特征选择

特征作为算法模型的输入,可以通过一种最原始的方法逐步筛选出有效特征

  • 前向选择

    从0开始,根据模型性能表现,逐步添加重要特征

  • 后向选择

    相反,从满特征开始,逐各剔除不重要特征

3.1 线性相关系数

  • pearson : standard correlation coefficient
  • spearman : Spearman rank correlation
  • kendall : Kendall Tau correlation coefficient

3.1.1 Person (皮尔逊相关系数 )

皮尔逊相关系数(Pearson correlation coefficient)是衡量两个连续变量之间线性关系强度和方向的统计量。

它是一个介于 -1 和 1 之间的值,其中:

  • 当两个变量完全正相关时,皮尔逊相关系数为 1。
  • 当两个变量完全负相关时,皮尔逊相关系数为 -1。
  • 当两个变量之间没有线性关系时,皮尔逊相关系数接近于 0。

代码:

correlations = df.corr(method=‘pearson’)[‘NDX’].iloc[:-1] # Pearson, NDX就是 Nasdaq-100指数

分析此相关系数,可以将正负相关性较小特征股票剔除,如 [-0.25, 0.25]以内的股票
在这里插入图片描述

3.1.2 Spearman (斯皮尔曼相关系数)

correlations = df.corr(method=‘spearman’)[‘NDX’].iloc[:-1] # Spearman

斯皮尔曼相关系数(Spearman correlation coefficient)是一种非参数统计量,用于衡量两个变量之间的相关性,不要求变量之间的是线性关键。

Spearman通过比较变量的等级顺序来衡量它们之间的相关性。

斯皮尔曼相关系数的取值范围为 -1 到 1,其中:

  • 当两个变量完全正相关时,斯皮尔曼相关系数为 1。

  • 当两个变量完全负相关时,斯皮尔曼相关系数为 -1。

  • 当两个变量之间没有单调关系时,斯皮尔曼相关系数接近于 0。

与皮尔逊相关系数不同,斯皮尔曼相关系数可以发现变量之间的任何单调关系,不仅限于线性的递增或递减关系。

因此,相比Person, 此方法算出的“不相关”股票更多,如图:
在这里插入图片描述

3.1.3 Kendall (秩相关系数)

correlations = df.corr(method=‘kendall’)[‘NDX’].iloc[:-1] # Kendall
在这里插入图片描述

Kendall tau是一种用于衡量两个变量之间的非线性关系的统计量。它衡量了两个变量的等级之间的协调性,即它们的等级排名是否是一致的。

Kendall秩相关系数的计算方法是Spearman斯皮尔曼相关系数的改进,但不同之处在于它考虑了等级之间的对比对数(concordant pairs)和不一致对(discordant pairs)。

Kendall在处理有序分类数据或评级数据等情况时更有效,特别是当数据存在等级关系但不满足线性相关的假设时。

Kendall的计算量要大一些(慢),整体结果和Spearman相同:
在这里插入图片描述
后续特征分析还有:

3.2 互信息

Entropy & 熵

3.3 梯度提升树 (Gradient Boosting Trees)

XGBoost (eXtreme Gradient Boosting)梯度下降分析

3.4 主成分分析PCA

协方差矩阵的特征值

对3.3和3.4感兴趣的可以订阅支持我的微信公众号:

股票数据集2-纳斯达克NASDAQ 100 分析

  • https://mp.weixin.qq.com/s/8Xhe0ir7QEWIYmtThqo0ew

这篇关于股票数据集2-纳斯达克NASDAQ 100 分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1046082

相关文章

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编