时间序列数据挖掘--机器学习+统计学方法+kdd论文(二)

2024-04-21 16:18

本文主要是介绍时间序列数据挖掘--机器学习+统计学方法+kdd论文(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

时间序列数据挖掘(二)

  • 机器学习+统计学+kdd1718论文
    • 机器学习下的时间序列
      • RNN
        • RNN使用领域
      • LSTM
    • 统计学下的时间序列
      • ARIMA
        • ARIMA的含义
        • 模型前提:平稳
        • ARIMA的数学形式
        • ARIMA模型建立步骤
        • 一些细节

机器学习+统计学+kdd1718论文

第二篇博客,接着上面的笔记写。
上一篇因为操作失误没有保存简直太失败了,这次要注意点。
这一篇主要记录我从统计学模型的角度学习时间序列模型。
因为我不是统计学学生,所以很多知识我都不是很了解,这篇博客的内容都是我现学习的,所以算是一个学习笔记吧。

机器学习下的时间序列

RNN

RNN使用领域

LSTM

统计学下的时间序列

我在网上看,常用的时间序列模型有四种:自回归模型 AR§、移动平均模型 MA(q)、自回归移动平均模型 ARMA(p,q)、自回归差分移动平均模型 ARIMA(p,d,q), 可以说前三种都是 ARIMA(p,d,q)模型的特殊形式。

ARIMA

ARIMA的含义

ARIMA包含3个部分:AR、I、MA。可见,ARIMA模型实际上是AR模型和MA模型的组合

  1. AR: auto regression,即自回归模型
  2. I: integration,即单整阶数,平稳分析后得到几阶单整
  3. MA: moving average,即移动平均模型。
模型前提:平稳

比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。

  1. 平稳的时间序列,非平稳序列直接进行分析,会有伪回归问题。
  2. 检验时间平稳的方法: ADF 单位根检验(如果时间序列不稳定,也可以通过一些操作如log,差分等使得时间序列稳定,此时在 ARIMA 要将结果进行逆操作如取指数,差分的逆操作,可以得到原始数据的预测结果)
  3. ADF 单位检验:若时间序列模型中含有单位根,则模型是非平稳的。核心是单位根检验,具体的单位根检验的学习内容:
    https://wenku.baidu.com/view/b18e720b19e8b8f67c1cb9ec.html
    平稳性的定义:
    我感觉简而言之就是:一个时间序列的随机变量是稳定的,当且仅当它的所有统计特征都是独立于时间的(是关于时间的常量)。
    稳定的数据是没有趋势(trend),没有周期性(seasonality)的; 即它的均值,在时间轴上拥有常量的振幅,并且它的方差,在时间轴上是趋于同一个稳定的值的。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    使用t假设检验,当t统计量大于假设检验临界值(5%等),则接受零假设,序列不平稳;当小于临界值,则拒绝了零假设,则序列是平稳的。
    一个例子:
    使用python对某个时间序列数据进行检验,结果如下(看p-value):在这里插入图片描述
    在这里插入图片描述
    上述例子来源:
    https://www.jianshu.com/p/4130bac8ebec
ARIMA的数学形式

ARIMA(p,d,q)模型有三个参数:p,d,q

  1. p:AR/Auto-Regressive项,代表预测模型中采用的时序数据本身的滞后数(lags)
  2. d:Integrated项,代表时序数据需要进行几阶差分化,才是稳定的
  3. q:MA/Moving Average项,代表预测模型中采用的预测误差的滞后数(lags)

数学形式:
在这里插入图片描述
y表示因变量Y的差分:
在这里插入图片描述
此模型可以描述为三个部分:常数+多个时间的加权和(AR模型)+多个时间的预测误差(MA模型)

几个特列

  1. ARIMA(0,1,0) = random walk
    在这里插入图片描述
  2. ARIMA(1,0,0) = first-order autoregressive model
    在这里插入图片描述
  3. ARIMA(1,1,0) = differenced first-order autoregressive model
    在这里插入图片描述
  4. ARIMA(0,1,1) = simple exponential smoothing with growth
    在这里插入图片描述
    更多例子详见:
    https://www.cnblogs.com/bradleon/p/6827109.html
ARIMA模型建立步骤
  1. 平稳检验,得到d值:若本身序列是平稳的则d=0,若一阶差分是平稳的则d=1,以此类推。
  2. 将平稳序列画出ACF,PACF图像,得出p,q值:p的值就是ACF第一次穿过上置信区间时的横轴值,q的值就是PACF第一次穿过上置信区间的横轴值(要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF,通过对自相关图和偏自相关图的分析,得到最佳的阶层 p 和阶数 q)
  3. 将得到的d,p,q带入求出ARIMA模型公式:通过数据拟合出模型的函数表达式(得到参数)
  4. 使用拟合的函数可以进行预测
    在这里插入图片描述
    示例图是一个例子中的ARIMA的函数图,蓝线是输入数据,红线是拟合的值,我们使用红线就可以预测出之后的值。
    但要注意此时的出的预测是一阶差分的预测,因此需要逆求出真实值。
    上述具体的例子:
    https://www.cnblogs.com/bradleon/p/6832867.html
一些细节

对ARIMA模型一个更简洁的表述:
在这里插入图片描述
链接:https://blog.csdn.net/chanbupt/article/details/70448147

AR自回归模型
是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型.
在这里插入图片描述
MA移动平均模型
MA模型和AR大同小异,它并非是历史时序值的线性组合而是历史白噪声的线性组合。与AR最大的不同之处在于,AR模型中历史白噪声的影响是间接影响当前预测值的(通过影响历史时序值)。
MA模型使用不同阶滞后的白噪音拟合。
在这里插入图片描述
白噪声的期望是0,方差为常数。
白噪声的定义:
对于一个随机变量X(t)(t=1,2,3……),如果是由一个不相关的随机变量的序列构成的,即对于所有s不等于t,随机变量X(t)和X(s)的协方差为零,则称其为纯随机过程。对于一个纯随机过程来说,若其期望为0,方差为常数,则称之为白噪声过程。

这篇关于时间序列数据挖掘--机器学习+统计学方法+kdd论文(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/923514

相关文章

Nginx设置连接超时并进行测试的方法步骤

《Nginx设置连接超时并进行测试的方法步骤》在高并发场景下,如果客户端与服务器的连接长时间未响应,会占用大量的系统资源,影响其他正常请求的处理效率,为了解决这个问题,可以通过设置Nginx的连接... 目录设置连接超时目的操作步骤测试连接超时测试方法:总结:设置连接超时目的设置客户端与服务器之间的连接

Java判断多个时间段是否重合的方法小结

《Java判断多个时间段是否重合的方法小结》这篇文章主要为大家详细介绍了Java中判断多个时间段是否重合的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录判断多个时间段是否有间隔判断时间段集合是否与某时间段重合判断多个时间段是否有间隔实体类内容public class D

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

C#中读取XML文件的四种常用方法

《C#中读取XML文件的四种常用方法》Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具,下面我们就来看看C#中读取XML文件的方法都有哪些吧... 目录XML简介格式C#读取XML文件方法使用XmlDocument使用XmlTextReader/XmlTextWr

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行