A Survey on Time-Series Pre-Trained Models

2023-11-06 16:59

本文主要是介绍A Survey on Time-Series Pre-Trained Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是LLM系列的文章,针对《A Survey on Time-Series Pre-Trained Models》的翻译。

时间序列预训练模型综述

  • 摘要
  • 1 引言
  • 2 背景
    • 2.1 时间序列挖掘任务
      • 2.1.1 时间序列分类
      • 2.1.2 时间序列预测
      • 2.1.3 时间序列聚类
      • 2.1.4 时间序列异常检测
      • 2.1.5 时间序列推测
    • 2.2 深度学习模型用于时间序列
      • 2.2.1 循环神经网络
      • 2.2.2 卷积神经网络
      • 2.2.3 Transformer
    • 2.3 为什么预训练模型
  • 3 TS-PTMs概览
    • 3.1 监督PTMs
      • 3.1.1 基于分类的PTMs
      • 3.1.2 基于预测的PTMs
    • 3.2 非监督的PTMs
      • 3.2.1 基于重建的PTMs
    • 3.3 自监督的PTMs
      • 3.3.1 基于一致性的PTMs
      • 3.3.2 伪标记PTMs
  • 4 实验结果和分析
    • 4.1 PTMs在时间序列分类上的性能
      • 4.1.1 基于监督分类和无监督重构的迁移学习PTM的比较
      • 4.1.2 基于Transformer和一致性的PTMs比较
      • 4.1.3 可视化
    • 4.2 PTMs在时间序列预测上的性能
    • 4.3 PTMs在时间序列异常检测上的性能
  • 5 未来方向
    • 5.1 大规模时间序列数据集
    • 5.2 时间序列的固有性质
    • 5.3 时间序列中的Transformer
    • 5.4 对时间序列的对抗性攻击
    • 5.5 时间序列噪声标签的预训练模型
  • 6 结论

摘要

时间序列挖掘在实际应用中显示出巨大的潜力,是一个重要的研究领域。基于大量标记数据的深度学习模型已成功用于TSM。然而,由于数据注释成本的原因,构建大规模标记良好的数据集是困难的。近年来,预训练模型由于其在计算机视觉和自然语言处理方面的卓越表现,逐渐引起了时间序列领域的关注。在这项综述中,我们对时间序列预训练模型(TS-PTM)进行了全面的回顾,旨在指导对TS-PTM的理解、应用和研究。具体来说,我们首先简要介绍TSM中使用的典型深度学习模型。然后,我们根据预训练技术对TS-PTM进行了概述。我们探索的主要类别包括有监督的、无监督的和自我监督的TS-PTM。此外,还进行了大量的实验来分析迁移学习策略、基于Transformer的模型和具有代表性的TS-PTM的优缺点。最后,我们指出了TS-PTM未来工作的一些潜在方向。源代码位于https://github.com/qianlima-lab/time-series-ptms.

1 引言

作为数据挖掘领域的一个重要研究方向,时间序列挖掘(TSM)已被广泛应用于现实世界中的应用,如金融、语音分析、动作识别和交通流预测。TSM的基本问题是如何表示时间序列数据。然后,可以基于给定的表示来执行各种挖掘任务。由于严重依赖领域或专家知识,传统的时间序列表示(例如,shapelets)非常耗时。因此,自动学习适当的时间序列表示仍然具有挑战性。
近年来,深度学习模型在各种TSM任务中取得了巨大成功。与传统的机器学习方法不同,深度学习模型不需要耗时的特征工程。相反,他们通过数据驱动的方法自动学习时间序列表示。然而,深度学习模型的成功依赖于大量标记数据的可用性。在许多真实世界的情况下,由于数据获取和注释成本的原因,很难构建一个标记良好的大型数据集。
为了减轻深度学习模型对大型数据集的依赖,通常使用基于数据增强和半监督学习的方法。数据增强可以有效地提高训练数据的大小和质量,并已被用作许多计算机视觉任务的重要组成部分。然而,与图像数据增强不同的是,时间序列数据增强还需要考虑时间序列中的时间依赖性和多尺度依赖性等属性。此外,时间序列数据增强技术的设计通常依赖于专家知识。另一方面,半监督方法使用大量未标记的数据来提高模型性能。然而,在许多情况下,即使是未标记的时间序列样本也很难收集(例如,医疗保健中的心电图时间序列数据)。
缓解训练数据不足问题的另一个有效解决方案是迁移学习,它放宽了训练和测试数据必须独立且相同分布的假设。迁移学习通常有两个阶段:预训练和微调。在预训练期间,模型在一些包含大量数据的源域上进行预训练,这些源域是独立的,但与目标域相关。在微调时,对来自目标域的通常有限的数据进行预训练模型(PTM)的微调。
最近,PTM,特别是基于Transformer的PTM,在各种计算机视觉(CV)和自然语言处理(NLP)应用中取得了显著的性能。受这些启发,最近的研究考虑了时间序列数据的时间序列预训练模型(TSPTM)的设计。首先,通过监督学习、无监督学习或自监督学习对时间序列模型进行预训练,以获得适当的表示。然后在目标域上对TS-PTM进行微调,以提高下游TSM任务(例如,时间序列分类和异常检测)的性能。
监督TS-PTM通常通过分类或预测任务进行预训练。然而,难以获得用于预训练的大量标记时间序列数据集往往限制了监督TSPTM的性能。此外,无监督的TS-PTM利用未标记的数据进行预训练,这进一步解决了标记数据不足的限制。例如,基于重建的TS-PTM使用自动编码器和重建损失来预训练时间序列模型。最近,基于对比学习的自监督PTM在CV中显示出了巨大的潜力。因此,一些学者已经开始探索基于一致性的任务设计和伪标记技术,以挖掘时间序列的固有属性。尽管如此,TS PTM的研究仍然是一个挑战。
在这项调查中,我们对TS-PTM进行了全面的回顾。具体来说,我们首先介绍了TSM中使用的各种TSM任务和深度学习模型。然后,我们基于预训练技术提出了TS PTM的分类法(图1)。其中包括有监督的预训练技术(导致基于分类和基于预测的PTM)、无监督的预训练技术(基于重建的PTMs)和自监督的预训技术(基于一致性和基于伪标记的PTMs)。请注意,一些TS-PTM可能使用多个任务(例如,[37]中的预测和重建或[38]中的一致性)进行预训练。为了简化综述,我们根据TS-PTM的核心预训练任务对其进行了分类。
在时间序列分类、预测和异常检测方面进行了广泛的实验,以研究各种迁移学习策略和具有代表性的TS-PTM的优缺点。此外,还讨论了TSPTM的未来发展方向。这项综述旨在让读者全面了解TS-PTM,从早期的迁移学习方法到最近的基于转换和一致性的TS-PTM。主要贡献可概括如下:

  • 我们根据所使用的预训练技术,对现有的TS-PTM进行了分类和全面审查。
  • 我们进行了大量的实验来分析TS-PTM的优缺点。对于时间序列分类,我们发现基于迁移学习的TS-PTM在UCR时间序列数据集(包含许多小数据集)上表现不佳,但在其他公开可用的大时间序列数据集中表现优异。对于时间序列预测和异常检测,我们发现设计一种合适的基于Transformer的预训练技术应该是未来TS-PTM研究的重点。
  • 我们分析了现有TS-PTM的局限性,并在(i)数据集、(ii)Transformer、(iii)固有特性、(iv)对抗性攻击和(v)噪声标签下提出了潜在的未来方向。

本文的其余部分组织如下。第2节提供了TS-PTM的背景。第3节对TS-PTM进行了全面审查。第4节介绍了各种TS-PTM的实验。第5节提出了一些未来的方向。最后,我们在第6节中总结了我们的发现。
在这里插入图片描述

2 背景

2.1 时间序列挖掘任务

2.1.1 时间序列分类

2.1.2 时间序列预测

2.1.3 时间序列聚类

2.1.4 时间序列异常检测

2.1.5 时间序列推测

2.2 深度学习模型用于时间序列

2.2.1 循环神经网络

2.2.2 卷积神经网络

2.2.3 Transformer

2.3 为什么预训练模型

3 TS-PTMs概览

3.1 监督PTMs

3.1.1 基于分类的PTMs

3.1.2 基于预测的PTMs

3.2 非监督的PTMs

3.2.1 基于重建的PTMs

3.3 自监督的PTMs

3.3.1 基于一致性的PTMs

3.3.2 伪标记PTMs

4 实验结果和分析

4.1 PTMs在时间序列分类上的性能

4.1.1 基于监督分类和无监督重构的迁移学习PTM的比较

4.1.2 基于Transformer和一致性的PTMs比较

4.1.3 可视化

4.2 PTMs在时间序列预测上的性能

4.3 PTMs在时间序列异常检测上的性能

5 未来方向

5.1 大规模时间序列数据集

5.2 时间序列的固有性质

5.3 时间序列中的Transformer

5.4 对时间序列的对抗性攻击

5.5 时间序列噪声标签的预训练模型

6 结论

在这项综述中,我们对TS-PTM的发展进行了系统的回顾和分析。在早期关于TS PTM的研究中,相关研究主要基于CNN和RNN模型对PTM进行迁移学习。近年来,基于Transformer和基于一致性的模型在时间序列下游任务中取得了显著的性能,并被用于时间序列预训练。因此,我们针对时间序列分类、预测和异常检测这三个主要任务,对现有的TS-PTM、迁移学习策略、基于Transformer的时间序列方法以及相关的代表性方法进行了大规模的实验分析。实验结果表明,基于Transformer的PTM在时间序列预测和异常检测任务中具有巨大的潜力,而为时间序列分类任务设计合适的基于Transformer的模型仍然具有挑战性。同时,基于对比学习的预训练策略是未来TS-PTM发展的潜在焦点。

这篇关于A Survey on Time-Series Pre-Trained Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/357890

相关文章

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

linux 下Time_wait过多问题解决

转自:http://blog.csdn.net/jaylong35/article/details/6605077 问题起因: 自己开发了一个服务器和客户端,通过短连接的方式来进行通讯,由于过于频繁的创建连接,导致系统连接数量被占用,不能及时释放。看了一下18888,当时吓到了。 现象: 1、外部机器不能正常连接SSH 2、内向外不能够正常的ping通过,域名也不能正常解析。

python内置模块datetime.time类详细介绍

​​​​​​​Python的datetime模块是一个强大的日期和时间处理库,它提供了多个类来处理日期和时间。主要包括几个功能类datetime.date、datetime.time、datetime.datetime、datetime.timedelta,datetime.timezone等。 ----------动动小手,非常感谢各位的点赞收藏和关注。----------- 使用datet

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

lua data time

local getTime = os.date(“%c”); 其中的%c可以是以下的一种:(注意大小写) %a abbreviated weekday name (e.g., Wed) %A full weekday name (e.g., Wednesday) %b abbreviated month name (e.g., Sep) %B full month name (e.g., Sep

Event Time源码分析

《2021年最新版大数据面试题全面开启更新》 flink 中Processing Time也就是处理时间在watermark定时生成、ProcessFunction中定时器与时间类型的窗口中都有使用,但是其内部是如何实现注册定时器、如何调用、如何容错保证在任务挂掉在下次重启仍然能够触发任务执行,都是我们今天的主题。首先需要了解一下在flink内部时间系统是由哪些类来共同完成这件事,下面画