AI论文速读 | 2024[VLDB]TFB:全面与公正的时间序列预测方法基准测试研究

本文主要是介绍AI论文速读 | 2024[VLDB]TFB:全面与公正的时间序列预测方法基准测试研究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods

作者:Xiangfei Qiu ; Jilin Hu(胡吉林) ; Lekui Zhou ; Xingjian Wu ; Junyang Du ; Buang Zhang ; Chenjuan Guo(郭晨娟) ; Aoying Zhou(周傲英) ; Christian S. Jensen ; Zhenli Sheng ; Bin Yang(杨彬)

机构:华东师范大学,华为云,奥尔堡大学(AAU)

关键词:时间序列预测, 基准测试, 领域覆盖, 评估策略, 公平比较, 自动化流程.

链接https://arxiv.org/abs/2403.20150

Cool Paperhttps://papers.cool/arxiv/2403.20150

代码https://github.com/decisionintelligence/TFB

TL; DR:该论文提出了TFB(时间序列预测基准测试),这是一个新颖的自动化基准测试框架,旨在通过包含来自十个不同领域的数据集,并提供一个灵活、可扩展且一致的评估流程,使得对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估成为可能。

这篇应该是ED&B(Experiment, Analysis and Benchmark)Track的论文

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

时间序列在经济、交通、健康和能源等不同领域生成,其中未来值的预测具有许多重要的应用。 毫不奇怪,人们提出了许多预测方法。 为了确保进展,必须能够以全面、可靠的方式对这些方法进行实证研究和比较。 为了实现这一目标,本文提出了 TFB,一种时间序列预测 (TSF) 方法的自动化基准。 TFB 通过解决与数据集、比较方法和评估流程相关的缺点来推进最先进的技术,即:1)数据域覆盖范围不足,2)对传统方法的刻板印象偏见,以及 3)不一致且不灵活的流程。 为了实现更好的领域覆盖,包含来自 10 个不同领域的数据集:交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。 还提供时间序列特征,以确保所选数据集的全面性。 为了消除对某些方法的偏见,提供了多种方法,包括统计学习、机器学习和深度学习方法,并且还支持多种评估策略和指标,以确保对不同方法进行更全面的评估。 为了支持将不同方法集成到基准测试中并实现公平比较,TFB 具有灵活且可扩展的流程,可以消除偏差。 接下来,使用 TFB 对 8,068 个单变量时间序列的 21 种单变量时间序列预测 (UTSF) 方法和 25 个数据集的14 种多元时间序列预测 (MTSF) 方法进行全面评估。

不同时间序列特征可视化

  1. 季节性(Seasonality):时间序列在特定时间间隔内重复变化的现象。
  2. 趋势(Trend):时间序列长期变化或模式的总体方向。
  3. 移动(漂移)(Shifting):时间序列的概率分布随时间变化的现象。
  4. 平稳性(Stationarity):时间序列的均值和方差对于所有观测值都是恒定的,协方差仅依赖于观测值之间的距离。
  5. 转换(Transition):时间序列中趋势、周期性或季节性和趋势同时出现的清晰表现。
  6. 相关性(Correlation):多变量时间序列中不同变量可能共享的共同趋势或模式,表明它们受到相似因素的影响或存在某种潜在关系(后文有体现)。

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为TFB(Time Series Forecasting Benchmark)的自动化基准测试,旨在全面和公正地评估时间序列预测(TSF)方法。论文试图解决的问题包括:

  1. 数据集覆盖不足:现有的时间序列预测方法评估通常只覆盖有限的领域,无法全面反映方法在不同领域的表现。
  2. 对传统方法的偏见:早期的评估往往忽略了传统方法,如统计学习方法,而只关注基于机器学习和深度学习的方法。
  3. 评估流程不一致和缺乏灵活性:不同的评估基准使用不同的实验设置,如数据划分、归一化方法选择和超参数设置,这使得跨基准的比较变得困难。

为了解决这些问题,TFB提出了以下解决方案:

  • 包含来自10个不同领域的数据集,以提高领域覆盖率。
  • 支持多种评估策略和指标,涵盖统计学习、机器学习和深度学习方法。
  • 提供灵活且可扩展的评估流程,确保在相同设置下对不同方法进行评估,以提高比较的公平性。

总的来说,TFB旨在为时间序列预测方法提供一个全面、可靠和用户友好的评估平台,以促进新方法的发展和现有方法的改进。

VAR,LR的传统方法在特定设置下的特定数据集上也能有很好的结果

Q: 有哪些相关研究?

A: 这篇论文在“相关工作”部分提到了以下几类相关研究:

  1. 时间序列预测方法(Time series forecasting:)

    • 统计学习方法:如ARIMA, ETS, Theta, VAR, 和 Kalman Filter (KF) 。
    • 机器学习方法:如XGBoost, Gradient Boosting Regression Trees (GBRT), Random Forests 和 LightGBM 。
    • 深度学习方法:如TCN , DeepAR , Transformer架构(包括Informer , FEDformer, Autoformer, Triformer, 和 PatchTST)以及基于MLP的模型(如N-HiTS , N-BEATS , NLinear, 和 DLinear )。
  2. 时间序列预测基准(Benchmarks:)

    • Libra, BasicTS, BasicTS+ , Monash, M3, M4, LTSF-Linear, 和 TSlib 。

这些相关研究表明,虽然已经有许多方法和基准用于时间序列预测,但它们在方法多样性、数据集覆盖、以及评估流程的一致性和灵活性方面存在不足。TFB旨在通过提供一个全面的、支持多种方法和评估策略的基准来解决这些问题,从而推动时间序列预测领域的发展。

不同时序基准比较

不同基准涉及的多元时许数据集

TFB和TSlib中多元数据集特征标准化值变化的箱线图

Q: 论文如何解决这个问题?

TFB

A: 为了解决上述提到的问题,论文提出了TFB(Time Series Forecasting Benchmark),一个全面的、自动化的时间序列预测方法评估基准。具体的解决方案包括:

  1. 数据集的全面覆盖
    • 包含来自10个不同领域的数据集,以提高领域覆盖率。
    • 对时间序列数据进行特征化分析,确保所选数据集在不同特征上具有广泛的分布。
  2. 方法多样性和评估策略的扩展
    • 支持包括统计学习、机器学习和深度学习在内的多种时间序列预测方法。
    • 提供多种评估策略和指标,以全面评估不同方法的性能。
  3. 灵活且可扩展的评估流程
    • 设计了一个统一的评估流程,包括数据层、方法层、评估层和报告层。
    • 引入了标准化的数据集处理、划分和归一化步骤。
    • 提供了可定制的配置文件,以便用户根据需要调整评估设置。
  4. 消除偏见和提高评估公平性
    • 通过统一的实验设置和评估策略,确保所有方法在相同的条件下进行评估。
    • 避免了对任何特定类别方法的偏见,如传统方法或最新方法。
  5. 自动化和简化评估过程
    • 提供了一个端到端的自动化评估流程,简化了研究人员对时间序列预测方法的评估过程。
    • 通过GitHub上的代码和数据集的公开,促进了社区的验证和使用。

通过这些解决方案,TFB旨在为时间序列预测研究者提供一个可靠、全面和用户友好的评估平台,从而推动该领域的进一步发展。

单变量数据集统计信息

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(这个图没有完全看懂,就翻译一下)

单变量时间序列,由于时间序列有不同的长度,首先将时间序列表示为由五个特征指标组成的向量:趋势、季节性、平稳性、漂移和转换。为了便于可视化,采用PCA(主成分分析)降维后的密度分析,观察到 TFB 和 M4 覆盖了最多的单元格,而所有其他基准均小于 TFB。 这强调了TFB数据集在特征分布多样性方面的覆盖范围。 此外,与 M4 相比,TFB的数据集涵盖了更广泛的领域。 此外,注意到 M4 的样本量要大得多,总计 100,000 个,而TFB的数据集仅包含 8,068 个时间序列。

多变量数据集统计信息

统计,机器学习和深度学习三种方法分类

不同时间序列预测评估策略(a):固定时间步预测;(b):滚动划窗预测

DropLast

关于“Drop last”的讨论:

“Drop last”是指在时间序列预测的测试阶段中,如果测试数据的最后一个批次(batch)的样本数量少于设定的批次大小(batch size),则通常会选择丢弃这个不完整的批次。这种做法是为了在测试过程中保持数据的一致性和加速计算。

然而,论文指出这种做法可能会导致不公平的比较。因为如果不同的方法在处理最后一个批次时采用不同的策略,比如一些方法丢弃了最后一个批次而另一些方法则没有,这可能会导致评估结果的偏差。

为了解决这个问题,论文提出了一种改进的评估流程,即在测试时不丢弃最后一个批次,而是确保所有方法在相同的策略下进行评估。这可以通过调整批次大小或采用其他方法来实现,以确保所有数据都被公平地考虑在内。

论文中通过实验表明,改变批次大小会影响方法的性能,因此建议在评估时间序列预测方法时,应该采用一致的批次处理策略,避免因“Drop last”操作而导致的潜在偏见。这种设计有助于提高评估的一致性和公平性,从而得到更准确的方法性能比较结果。

Q: 论文做了哪些实验?

评价指标

单变量预测

Ranks表示MSMAPE在该数据集上有多少次取得最佳性能

6个不同领域数据集的MAE雷达图比较

相关性方法比较

通道独立(CI) VS 通道依赖(CD)

渠道独立性与渠道依赖性。 在多元数据集中,变量有时被称为通道。 为了研究多变量时间序列中通道依赖性的影响,在十个数据集上比较 PatchTST(CI方法) 和 Crossformer(CD方法),依赖性从弱到强。。观察到,随着数据集中相关性的增加,Crossformer 的性能逐渐超过 PatchTST,这表明当相关性很强时最好考虑通道依赖性。但是, 当变量之间相关性不明显时,不考虑通道依赖性的PatchTST更好。

因此深入探索通道依赖性,在设计新方法和改良现有方法是值得思考的问题。

比如之前介绍过的CCM:

多元预测1

image-20240416145611303

参数量和推理时间比较

A: 论文中进行了以下实验来评估和验证TFB基准测试的有效性和实用性:

  1. 实验设置
    • 使用了TFB中包含的25个多变量数据集和8,068个单变量时间序列数据集。
    • 包含了22种不同的时间序列预测方法,涵盖统计学习、机器学习和深度学习三大类。
    • 对每种方法进行了全面的超参数选择,以确保其性能接近或超过原始论文中报告的结果。
  2. 单变量时间序列预测
    • 对14种单变量时间序列预测方法在8,068个单变量时间序列上进行了评估。
    • 使用了MASE(Mean Absolute Scaled Error)和MSMAPE(Mean Symmetric Absolute Percentage Error)等指标来衡量预测性能。
    • 分析了不同方法在具有不同特征(如季节性、趋势、平稳性等)的时间序列上的表现。
  3. 多变量时间序列预测
    • 对14种多变量时间序列预测方法在25个数据集上进行了评估。
    • 采用了MAE(Mean Absolute Error)和MSE(Mean Squared Error)等指标,并针对不同的预测范围进行了测试。
    • 比较了不同方法在数据集上的表现,并探讨了它们在处理多变量时间序列时的优缺点。
  4. 方法性能分析
    • 根据实验结果,总结了不同方法在各种数据特征上的表现和排名。
    • 讨论了基于Transformer的方法、线性方法以及考虑通道依赖性的方法在不同场景下的性能差异。
    • 提供了关于如何选择适合特定数据集和场景的预测方法的见解。
  5. 基准测试的可用性和灵活性
    • 展示了TFB如何简化时间序列预测方法的评估过程,并提供了可复现的实验设置。
    • 通过公开代码和数据集,允许社区成员验证实验结果并基于TFB进行进一步的研究。

这些实验不仅验证了TFB作为一个全面和公正的评估工具的有效性,而且为时间序列预测领域的研究人员提供了有价值的见解和建议。通过这些实验,研究人员可以更好地理解和比较不同方法的性能,从而为特定应用场景选择或设计最合适的预测模型。

3类方法(CNN,线性,transformer)在6个时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)上的表现

上述两张图,从左到右,所示数据集的时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)逐步增强。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题陈述:论文识别了现有时间序列预测(TSF)方法评估基准在数据集覆盖、方法多样性和评估流程一致性及灵活性方面存在的不足。
  2. TFB基准:为了解决上述问题,论文提出了TFB,一个自动化的、全面的和可扩展的时间序列预测方法评估基准。
  3. 数据集:TFB包含来自10个不同领域的数据集,以确保对各种时间序列特征的全面覆盖,并提供时间序列特征分析以确保数据集的多样性。
  4. 方法多样性:TFB支持多种时间序列预测方法,包括统计学习、机器学习和深度学习方法,并提供多种评估策略和指标。
  5. 评估流程:TFB设计了一个灵活的评估流程,包括数据层、方法层、评估层和报告层,以确保不同方法可以在公平和一致的环境中进行比较。
  6. 实验:论文使用TFB对多种单变量和多变量时间序列预测方法进行了全面评估,并提供了实验结果和分析。
  7. 发现:通过实验,论文得出了一些关键发现,包括传统统计方法在某些数据集上的表现优于最新方法,以及不同方法在处理具有不同特征的数据集时的优缺点。
  8. 贡献:TFB作为一个评估工具,为研究人员提供了一个可靠和用户友好的平台,以设计和评估新的TSF方法,并促进了该领域的进步。
  9. 代码和数据:为了促进研究的透明度和可复现性,论文提供了TFB的代码和数据集的公开访问链接。

*:通过实验,论文得出了一些关键发现,包括传统统计方法在某些数据集上的表现优于最新方法,以及不同方法在处理具有不同特征的数据集时的优缺点。
8. 贡献:TFB作为一个评估工具,为研究人员提供了一个可靠和用户友好的平台,以设计和评估新的TSF方法,并促进了该领域的进步。
9. 代码和数据:为了促进研究的透明度和可复现性,论文提供了TFB的代码和数据集的公开访问链接。

总体而言,TFB基准旨在提供一个综合性的评估框架,以推动时间序列预测领域的研究和实践。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

这篇关于AI论文速读 | 2024[VLDB]TFB:全面与公正的时间序列预测方法基准测试研究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/917028

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业