【统计学】【2015】时间序列数据缺失值的多重填补

2024-01-17 20:59

本文主要是介绍【统计学】【2015】时间序列数据缺失值的多重填补,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
本文为美国杜克大学(作者:Sohae Oh)的硕士论文,共48页。

由于各种原因,金融股票市场数据常常包含缺失的数值。其中一个原因是,由于市场因假日休市,所以并不总是观察每日股价,这就造成了信息上的空白,使得很难预测第二天的股价。在这种情况下,节日期间的信息可以从其他国家的股票市场“借来”,因为全球股票价格往往表现出类似的走势,事实上是高度相关的。

本研究的主要目的是结合全球不同市场的股指数据,利用不同时间序列间的「资讯分享」,开发一种计算个别股指缺失值的演算法。为了开发适应时间序列特征的插补算法,我们对时间序列和面板数据采用动态线性模型的多重插补方法。该算法采用了可忽略的丢失数据机制,主要针对由于假期而导致的数据丢失。利用蒙特卡罗马尔可夫链(MCMC)方法模拟了参数的后验分布,并利用Rubin组合规则对绘制集的估计值进行组合,给出了数据集的最终推断。具体地说,我们使用Gibbs取样器、前向滤波和后向采样(FFBS)来模拟联合后验分布和隐变量的后验预测分布等参数。利用均方根误差(RMSE)和归一化均方根误差(NRMSE)两种基于误差的测量方法对算法的有效性和性能进行了仿真研究。我们比较了输入时间序列与完整数据集的总体趋势,并以最终值结转法(LVCF)为基准检验了算法的不充分可预测性。将该算法应用于美国、日本、香港、英国和德国的实际股价指数数据,通过仿真和实际应用,我们得出结论:该插补算法能够很好地实现我们的原始目标,以预测节后开盘价的股价,其效果优于基准方法。我们相信这种多重插补算法可以应用于许多处理具有缺失值的时间序列应用,如金融和经济数据以及生物医学数据。

Financial stock market data, for variousreasons, frequently contain missing values. One reason for this is that,because the markets close for holidays, daily stock prices are not alwaysobserved. This creates gaps in information, making it difficult to predict thefollowing day’s stock prices. In this situation, information during the holidaycan be “borrowed” from other countries’ stock market, since global stock pricestend to show similar movements and are in fact highly correlated. The main goalof this study is to combine stock index data from various markets around theworld and develop an algorithm to impute the missing values in individual stockindex using “information sharing” between different time series. To developimputation algorithm that accommodate time series-specific features, we takemultiple imputation approach using dynamic linear model for time-series andpanel data. This algorithm assumes ignorable missing data mechanism, as which missingnessdue to holiday. The posterior distributions of parameters, including missingvalues, is simulated using Monte Carlo Markov Chain (MCMC) methods andestimates from sets of draws are then combined using Rubin’s combination rule,rendering final inference of the data set. Specifically, we use the Gibbssampler and Forward Filtering and Backward Sampling (FFBS) to simulate jointposterior distribution and posterior predictive distribution of latentvariables and other parameters. A simulation study is conducted to check thevalidity and the performance of the algorithm using two error-basedmeasurements: Root Mean Square Error (RMSE), and Normalized Root Mean SquareError (NRMSE). We compared the overall trend of imputed time series withcomplete data set, and inspected the insample predictability of the algorithmusing Last Value Carried Forward (LVCF) method as a bench mark. The algorithmis applied to real stock price index data from US, Japan, Hong Kong, UK andGermany. From both of the simulation and the application, we concluded that theimputation algorithm performs well enough to achieve our original goal,predicting the stock price for the opening price after a holiday, outperformingthe benchmark method. We believe this multiple imputation algorithm can be usedin many applications that deal with time series with missing values such asfinancial and economic data and biomedical data.

  1. 引言
  2. 研究方法
  3. 估计
  4. 仿真
  5. 应用
  6. 结论与讨论

更多精彩文章请关注公众号:在这里插入图片描述

这篇关于【统计学】【2015】时间序列数据缺失值的多重填补的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/617200

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十