掌握时间波动:借助时间序列交叉验证技术提升预测精准度

本文主要是介绍掌握时间波动:借助时间序列交叉验证技术提升预测精准度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:mastering-the-waves-of-time-enhancing-predictive-accuracy-with-time-series-cross-validation

2024 年 4 月 11 日

简介

在数据分析中,预测建模的准确性(尤其是时间序列数据)至关重要。时间序列交叉验证在这种情况下脱颖而出,成为一项关键技术,旨在有效评估时间序列模型的性能。与传统的交叉验证方法不同,时间序列交叉验证解决了时间相关数据的独特挑战,确保适当考虑时间顺序和依赖性。本文深入探讨了时间序列交叉验证的要点,重点关注其方法、实际应用以及从业者必须考虑的细微差别,以充分发挥其潜力。

5

背景

时间序列交叉验证是一种用于评估时间序列模型预测性能的技术。标准的交叉验证方法假定数据点是独立且同分布的,与之不同的是,时间序列交叉验证考虑了数据的时间顺序。这对时间序列数据至关重要,因为过去的观测数据通常用于预测未来值,而数据点的顺序非常重要。

以下是时间序列交叉验证的典型工作原理:

  1. 保留时间顺序: 根据时间顺序而不是随机拆分数据。这意味着较早的数据点被用来预测较晚的数据点。
  2. 滚动或扩展窗口: 主要使用两种方法:
  • 滚动窗口(或滑动窗口)交叉验证: 这包括在每次迭代后将训练和测试窗口向前移动固定的时间步数。例如,在前 12 个月的数据上进行训练,在下一个月进行测试,然后将两个窗口向前滚动一个月并重复。
  • 扩展窗口交叉验证法: 在这种方法中,训练窗口在每次迭代中都会扩大,以包含更多数据,而测试窗口则保持固定或增长。例如,开始时在前 12 个月进行训练,在下一个月进行测试,然后在前 13 个月进行训练,在下一个月进行测试,依此类推。
  1. 评估: 每次迭代后,在测试集上对模型的性能进行评估。时间序列模型的标准指标包括平均绝对误差 (MAE)、平均平方误差 (MSE) 或均方根误差 (RMSE),具体取决于具体的使用情况和模型目标。
  2. 迭代和聚合: 对每个培训/测试期重复这一过程,并对评估指标进行汇总(如求平均值),以提供对模型性能的整体评估。

这种方法有助于确保模型的稳健性,并在未见数据上表现良好,同时尊重观察结果的时间顺序,这对保持时间序列分析的完整性至关重要。

了解时间动态

时间序列交叉验证的基础在于尊重时间序列数据的连续性。与时间相关的数据具有自相关性,即之前的数据会影响当前的数据值。这一特性要求我们在方法上进行转变,从标准交叉验证中使用的随机分区转变为保留数据点时间顺序的策略。因此,我们的主要目标是模拟现实世界中的情景,即仅使用过去和现在的数据来预测未来的结果。

实践中的方法

从业人员通常采用两种主要的时间序列交叉验证方法:滚动窗口和扩展窗口技术。每种方法都能满足不同的需求,并对模型随时间变化的性能提供独特的见解。

  1. 滚动窗口交叉验证: 这种技术是将训练窗口和测试窗口在时间上向前移动,通常是一个时间步长。它能动态地反映模型的性能和适应新数据的能力。例如,金融时间序列预测中的滚动窗口方法可以帮助评估模型预测每日股票价格的能力,并根据市场波动进行调整。
  2. 扩展窗口交叉验证: 训练窗口的大小每一步都在增加,而测试窗口则保持不变。这种方法有利于捕捉长期趋势,了解更多历史数据如何影响预测准确性。例如,扩大窗口验证可以揭示模型在经济预测中如何适应不同的经济周期。

实际考虑因素

有效实施时间序列交叉验证需要注意几个实际考虑因素:

  • 静态性: 确保时间序列数据的静态性至关重要,这意味着其统计特性不会随时间而改变。非静态数据会导致误导性的验证结果,因为模型可能会学习到不能很好地推广到未来的模式。
  • 季节性: 考虑季节性变化至关重要,尤其是在零售或农业等行业,因为这些行业的需求模式具有很强的季节性。交叉验证框架的设计应能捕捉并评估模型准确预测这些季节性模式的能力。
  • 预测范围: 预测范围的选择--即模型预测未来多远--会对验证结果产生重大影响。较短的预测范围可能侧重于近期趋势,而较长的预测范围则更具挑战性,但却能让人深入了解模型的长期预测能力。
  • 性能指标: 选择正确的指标来评估模型性能至关重要。虽然 MSE 和 RMSE 很常见,但它们有时可能并不合适,主要是在数据包含异常值的情况下。平均绝对误差 (MAE) 或平均绝对百分比误差 (MAPE) 等指标有时能更真实地反映模型的预测准确性。

代码

下面是一个使用合成数据集演示时间序列交叉验证的 Python 综合示例。我们将在一个代码块中涵盖数据集生成、特征工程、超参数调整、模型评估、绘图和结果解释:

import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
# Generate synthetic time series data
np.random.seed(42)
time = np.arange(100)
y = np.sin(time) + np.random.normal(scale=0.1, size=time.size)
data = pd.DataFrame({'Time': time, 'Value': y})
# Feature engineering: creating lag features
for lag in range(1, 4):data[f'lag_{lag}'] = data['Value'].shift(lag)
data.dropna(inplace=True)  # Remove rows with NaN values after shifting
# Define the model and hyperparameters
model = Ridge()
hyperparameters = {'alpha': [0.1, 1, 10]}
tscv = TimeSeriesSplit(n_splits=5)
best_score = float('inf')
best_alpha = None
# Hyperparameter tuning with time series cross-validation
for alpha in hyperparameters['alpha']:temp_model = make_pipeline(PolynomialFeatures(degree=2), Ridge(alpha=alpha))scores = []for train_index, test_index in tscv.split(data):train, test = data.iloc[train_index], data.iloc[test_index]X_train, y_train = train.drop('Value', axis=1), train['Value']X_test, y_test = test.drop('Value', axis=1), test['Value']temp_model.fit(X_train, y_train)y_pred = temp_model.predict(X_test)score = mean_squared_error(y_test, y_pred)scores.append(score)avg_score = np.mean(scores)if avg_score < best_score:best_score = avg_scorebest_alpha = alpha
# Final model training
final_model = make_pipeline(PolynomialFeatures(degree=2), Ridge(alpha=best_alpha))
X, y = data.drop('Value', axis=1), data['Value']
final_model.fit(X, y)
# Plotting the results
plt.figure(figsize=(10, 6))
plt.plot(data['Time'], y, label='Actual')
plt.plot(data['Time'], final_model.predict(X), label='Predicted')
plt.title(f'Time Series Prediction (Best alpha: {best_alpha})')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.show()
# Interpretations
print(f"Best alpha value: {best_alpha}")
print(f"Model's average MSE across folds: {best_score}")
# The model's performance can be assessed by comparing the actual and predicted values over time.
# A lower MSE indicates a better fitting model. The plot and MSE provide insights into the model's accuracy and its ability to generalize over time.

该代码块将介绍创建合成数据集、生成用于时间序列预测的滞后特征、调整超参数 alpha 对于岭回归模型,将使用时间序列交叉验证,然后使用最佳超参数训练最终模型。最后,绘制实际值与预测值的对比图,以直观显示模型的性能。它还会打印出最佳超参数值和模型在交叉验证褶皱中的均方误差(MSE)。解释部分将介绍如何根据这些结果评估模型的性能。

6

上图显示的是为示例生成的合成时间序列数据样本。它表示的是一个正弦波,其中添加了一些正常噪声,是实际用于测试和演示模型的典型时间序列数据。

7

该图显示了一个时间序列数据集在 100 个时间步长内的实际值与预测值的对比。蓝线代表精确值,橙线代表从模型中获得的预测值,该模型可能就是前面讨论的那个模型,其优化超参数 alpha 设为 1。

预测值紧跟实际值,表明模型与数据拟合良好。模型有效地捕捉到了基本模式,鉴于数据的周期性,这可能是某种周期性或季节性趋势。

预测值和实际值之间存在微小偏差,这在任何模型中都是可以预料到的,因为模型无法完美预测噪音或其他因素。两条线的紧密吻合表明模型具有很高的准确性。

波峰和波谷的规律性表明,数据具有周期性的固体成分,模型可以学习并再现这种成分。预测在整个范围内的精确度也表明,所选择的特征和超参数的调整使得模型能够很好地概括该时间序列数据。

总之,可视化结果表明,利用经过良好调整的参数成功建立了时间序列模型,从而得出了与实际观测结果高度一致的预测结果。

结论

对于处理时间序列数据的从业人员来说,时间序列交叉验证是不可或缺的。分析师可以通过仔细选择适当的方法并考虑时间序列的独特性,全面了解其模型的性能。这种方法的严谨性不仅确保了预测模型的准确性,还确保了模型在一段时间内的稳健性和可靠性,从而为各个领域提供可操作的见解,促进数据驱动型决策的制定。通过细致地应用时间序列交叉验证,从业人员可以驾驭复杂的时间序列数据,并获得有价值的预测见解。

这篇关于掌握时间波动:借助时间序列交叉验证技术提升预测精准度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/900509

相关文章

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

MySQL中的交叉连接、自然连接和内连接查询详解

《MySQL中的交叉连接、自然连接和内连接查询详解》:本文主要介绍MySQL中的交叉连接、自然连接和内连接查询,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、引入二、交php叉连接(cross join)三、自然连接(naturalandroid join)四

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介

Feign Client超时时间设置不生效的解决方法

《FeignClient超时时间设置不生效的解决方法》这篇文章主要为大家详细介绍了FeignClient超时时间设置不生效的原因与解决方法,具有一定的的参考价值,希望对大家有一定的帮助... 在使用Feign Client时,可以通过两种方式来设置超时时间:1.针对整个Feign Client设置超时时间

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2