【统计学】【2015】时间序列数据缺失值的多重填补

2024-01-17 20:59

本文主要是介绍【统计学】【2015】时间序列数据缺失值的多重填补,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
本文为美国杜克大学(作者:Sohae Oh)的硕士论文,共48页。

由于各种原因,金融股票市场数据常常包含缺失的数值。其中一个原因是,由于市场因假日休市,所以并不总是观察每日股价,这就造成了信息上的空白,使得很难预测第二天的股价。在这种情况下,节日期间的信息可以从其他国家的股票市场“借来”,因为全球股票价格往往表现出类似的走势,事实上是高度相关的。

本研究的主要目的是结合全球不同市场的股指数据,利用不同时间序列间的「资讯分享」,开发一种计算个别股指缺失值的演算法。为了开发适应时间序列特征的插补算法,我们对时间序列和面板数据采用动态线性模型的多重插补方法。该算法采用了可忽略的丢失数据机制,主要针对由于假期而导致的数据丢失。利用蒙特卡罗马尔可夫链(MCMC)方法模拟了参数的后验分布,并利用Rubin组合规则对绘制集的估计值进行组合,给出了数据集的最终推断。具体地说,我们使用Gibbs取样器、前向滤波和后向采样(FFBS)来模拟联合后验分布和隐变量的后验预测分布等参数。利用均方根误差(RMSE)和归一化均方根误差(NRMSE)两种基于误差的测量方法对算法的有效性和性能进行了仿真研究。我们比较了输入时间序列与完整数据集的总体趋势,并以最终值结转法(LVCF)为基准检验了算法的不充分可预测性。将该算法应用于美国、日本、香港、英国和德国的实际股价指数数据,通过仿真和实际应用,我们得出结论:该插补算法能够很好地实现我们的原始目标,以预测节后开盘价的股价,其效果优于基准方法。我们相信这种多重插补算法可以应用于许多处理具有缺失值的时间序列应用,如金融和经济数据以及生物医学数据。

Financial stock market data, for variousreasons, frequently contain missing values. One reason for this is that,because the markets close for holidays, daily stock prices are not alwaysobserved. This creates gaps in information, making it difficult to predict thefollowing day’s stock prices. In this situation, information during the holidaycan be “borrowed” from other countries’ stock market, since global stock pricestend to show similar movements and are in fact highly correlated. The main goalof this study is to combine stock index data from various markets around theworld and develop an algorithm to impute the missing values in individual stockindex using “information sharing” between different time series. To developimputation algorithm that accommodate time series-specific features, we takemultiple imputation approach using dynamic linear model for time-series andpanel data. This algorithm assumes ignorable missing data mechanism, as which missingnessdue to holiday. The posterior distributions of parameters, including missingvalues, is simulated using Monte Carlo Markov Chain (MCMC) methods andestimates from sets of draws are then combined using Rubin’s combination rule,rendering final inference of the data set. Specifically, we use the Gibbssampler and Forward Filtering and Backward Sampling (FFBS) to simulate jointposterior distribution and posterior predictive distribution of latentvariables and other parameters. A simulation study is conducted to check thevalidity and the performance of the algorithm using two error-basedmeasurements: Root Mean Square Error (RMSE), and Normalized Root Mean SquareError (NRMSE). We compared the overall trend of imputed time series withcomplete data set, and inspected the insample predictability of the algorithmusing Last Value Carried Forward (LVCF) method as a bench mark. The algorithmis applied to real stock price index data from US, Japan, Hong Kong, UK andGermany. From both of the simulation and the application, we concluded that theimputation algorithm performs well enough to achieve our original goal,predicting the stock price for the opening price after a holiday, outperformingthe benchmark method. We believe this multiple imputation algorithm can be usedin many applications that deal with time series with missing values such asfinancial and economic data and biomedical data.

  1. 引言
  2. 研究方法
  3. 估计
  4. 仿真
  5. 应用
  6. 结论与讨论

更多精彩文章请关注公众号:在这里插入图片描述

这篇关于【统计学】【2015】时间序列数据缺失值的多重填补的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/617200

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python 标准库time时间的访问和转换问题小结

《Python标准库time时间的访问和转换问题小结》time模块为Python提供了处理时间和日期的多种功能,适用于多种与时间相关的场景,包括获取当前时间、格式化时间、暂停程序执行、计算程序运行时... 目录模块介绍使用场景主要类主要函数 - time()- sleep()- localtime()- g

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加