时间序列数据挖掘--机器学习+统计学方法+kdd论文(三)----Tripoles: A New Class of Relationships in Time Series Data

本文主要是介绍时间序列数据挖掘--机器学习+统计学方法+kdd论文(三)----Tripoles: A New Class of Relationships in Time Series Data,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

时间序列数据挖掘(二)

  • 机器学习+统计学+kdd1718论文
    • 机器学习下的时间序列
    • 统计学下的时间序列
    • KDD2017论文 Tripoles: A New Class of Relationships in Time Series Data
      • Abstract 摘要
      • Keywords 关键词
      • Introduction 介绍
      • Definitions 定义
      • Proposed approach 提出的方法
        • naive approach
        • CONTRaComplete
          • 用于剪枝的参数计算
          • CONTRaComplete算法
        • CONTRaFast
      • Experience results and evaluation
        • Data and Pre-processing
        • Evaluation of CONTRa
        • Evaluation of discovered Tripoles
      • Physical interpretation of Tripoles
        • Discovery of a New Climate Teleconnection
        • Discovering discriminative relationships between a resting and an audio-visual task in fMRI data
    • 总结

机器学习+统计学+kdd1718论文

机器学习下的时间序列

统计学下的时间序列

KDD2017论文 Tripoles: A New Class of Relationships in Time Series Data

Abstract 摘要

以往的时间序列论文都是挖掘 pair-wise relationships(两极),本论文提出方法Tripoles,这包括三种相关联的时间序列关联模式(三极),能够发现pair-wise relationships模式中挖掘不出的东西。
总结:传统两极关系,论文三极关系

Keywords 关键词

multivariate linear patterns; correlation mining; (多线限行模式,关联挖掘)
spatio-temporal; climate teleconnections; fMRI(应用领域)

Introduction 介绍

之前针对时间序列相关性分析–pair-wise relationships:

  1. 实现了fMRI,获得了大脑的两个领域关联,呈现了可视化图像
  2. 发现teleconnections,大气的遥相关

本文的Tripoles

…其中有三个time series T0,T1,T2
…T0位root;T1,T2为leaves
…T1,T2合起来一起对T0的影响为T1+2=T1+T2
…发现共同影响的权值>单独影响的权值

Tripoles的例子1:

…T0,T1,T2是在地图上三个路上的车流量时间序列
…曲线是T0,T1,T2的车流量
…紫色是T1+T2,发现紫色曲线和蓝色曲线的相关性很大
…解释:T1在工作日的车流量多,T2在周末车流量多,两者相加得到中和,更加符合T0的流量模式

Tripoles的例子2

…紫色T1+T2与T0相关性超级高,但T1,T2分别与T0的相关性也很高
…只有T1+T2与T0相关性超级高,但T1,T2分别与T0的相关性不高时才有趣,本例子不能体现Tripoles的优点

Tripoles的例子3

…遥相关teleconnections的新模式,不再是两地的遥相关,而是三地的遥相关

Tripoles的困难

  1. 首创
  2. 对于大量的数据,找出存在Tripoles,需要 ( 3 n ) \begin{pmatrix}3\\ n\end{pmatrix} (3n)
  3. 没有ground truth

论文的工作

  1. 定义Tripoles概念
  2. 评估方法
  3. 发现Tripoles方法,不再是 ( 3 n ) \begin{pmatrix}3\\ n\end{pmatrix} (3n)蛮力搜索,效率提高。
    方法基于:
    (1)预剪枝
    (2)利用不同时间序列之间的紧密关系结构(例如,时空数据集中的空间自相关)
  4. 使用神经科学和气候科学领域的两个真实数据集没证明提出的方法相对于蛮力计算的效率
  5. Tripoles计算的意义和重要性
  6. 许多发现的Tripoles在独立数据集中可重复,可能揭示未知现象。

Definitions 定义

  1. 数据集:
    包含n个时间序列的数据集,其中每个时间序列的均值为0,方差为1(预处理可以实现)
  2. Tripoles
  3. 相关性

    …此时T1+2使用T1+T2并且预处理使得均值为0,方差为1。其实还有其他的方法表示T1+2,但论文简单的使用T1+T2数值相加。
    …相关性可正可负,绝对值越大,相关性越大。正相关为positive tripoles,负相关为negative tripoles
    …corr是相关系数
  4. jump

    …the jump can be used as a useful measure to identify interesting tripoles in time-series data.
    …jump可以来衡量Tripoles使用的有效性(例子2就是不有效的)
  5. 有效的Tripoles/ 有趣的Tripoles(注意这是一个Tripoles的集合)

    当jump大于一个阈值的时候,说明这个Tripoles是有效的
  6. Tripoles的相似性

    …当两个Tripoles中的T0,T1,T2相关度都大于阈值的时候,认为两个T0,T1,T2相关
    …有了相关定义,我们才能找出n个time series中没有冗余的多个Tripoles
  7. 非冗余的Tripoles的集合
  8. 问题描述

    …通过定义和求解1-6,我们可以得出7
    …7定义的非冗余Tripoles集合是本论文的目的

Proposed approach 提出的方法

  1. 发现Tripoles的方法: COst-efficieNt TRipole Finding (CONTRa) approaches
  2. 暴力枚举求法:naive approach
  3. 两种 CONTRa的实现:CONTRaComplete ; CONTRaFast
  4. CONTRaComplete:使用 pair-wise correlations, the jump threshold δ来剪枝(完整性保持,慢)
  5. CONTRaFast:通过剪枝来改善运行时间,但损失了c这个集合的完整性(完整性不保持,快)
naive approach

…算法1是求不冗余的完整的c
…其实就是使用 ( 3 n ) \begin{pmatrix}3\\ n\end{pmatrix} (3n)找出每三对看是不是Tripole,若是的话,加入c,并对c去掉冗余

…算法2是用来去掉c中的冗余的
…找出c中jump最高的Tripole保留,去掉和此Tripole相似的Tripole

CONTRaComplete
用于剪枝的参数计算
  1. 计算jump
    (这里发现论文的推导过程存在错误,给作者发了邮件指出错误后,做了一下修改,见手写版)


    虽然论文在推导中出现了小小的错误,但并没有影响结果,得到jump的计算公式为:
  2. 最大wise-pair相关系数s
  3. jump的uper bound

    推导过程论文中很详细并且没有错,因此不再写出。
  4. s的lower bound

    …根据3给出的jump的uper bound,我们可以使用相同的公式得出s的lower bound。
    …这样,我们的s有一个下界,在选择三个时间序列计算是不是Tripole时可以根据s的值来去掉一部分候选集(剪枝)
  5. 针对negative interesting tripole的jump
    4中提出的jump的uper bound只能用于positive interesting tripole,因为negative interesting tripole的jump为正,negative interesting tripole的jump为负。

    证明在论文中,不再详述
CONTRaComplete算法

…算法就是在集合上找三组time series满足45的s,第8行,对c进行去冗余是naive算法中的algorithm 2
…CONTRaComplete就是在naive算法的挑选候选tripole上做了改变,不是用 ( 3 n ) \begin{pmatrix}3\\ n\end{pmatrix} (3n)对每三个time series都进行,而是有条件的选择,从而进行了剪枝,加快了速度。

CONTRaFast

在CONTRaComplete的基础上做了一点改变,第4行:


…CONTRaFast算法是在CONTRaComplete的基础上在选三个time series来计算看是不是interesting tripole时加入过滤。
…如果两个t的相似度高于k,那么不选。
…若k=1则CONTRaFast=CONTRaComplete。
…此时的算法基于前面的观察,如例子2,本身相关性很高的二极对,就不用再发现三极对了,但这种方法可能导致找到的c不完全,有unconplete问题。不过还是加快了速度。

Experience results and evaluation

Data and Pre-processing

使用了两个数据源测试:

  1. Global Sea Level Pressure (SLP) Data 海洋压强水平
  2. Brain fMRI Data 脑核磁共振数据
    预处理:
    均值为0,方差为1. 对一些阈值参数进行选择。
    (按照我以往的方式,我在做相关工作的时候一般不把阈值初定,而是定一些,使用目标优化的方式来选择阈值。但在这篇论文中,由于提出的是一个新的idea,因此没有ground truth,无法对参数进行选择,因此阈值只能人工的初定)
Evaluation of CONTRa

使用的标准:

  1. Computational Time (Cost)
  2. Fraction of missed interesting tripoles (MissFrac),此时不完整性的判断是按照k=1为基准的,也就是CONTRaComplete找出c为基准
Evaluation of discovered Tripoles

Physical interpretation of Tripoles

针对两个数据集,使用Tripoles后的新发现

Discovery of a New Climate Teleconnection

使用Tripoles在环境遥相关上发现了新的规律

Discovering discriminative relationships between a resting and an audio-visual task in fMRI data

使用Tripoles在脑感知上发现了新的规律,如图发现了新的感知模式:

总结

整篇论文看下来非常的顺畅,对数学功底的要求不高,使用的知识也都十分基本。亮点在于提出了新的相关模式–三极相关,运用到了一些领域并取得了好的效果。
最关键的贡献在于可以运用到气象和生物领域,为新知识的发现提供了好的帮助。

这篇关于时间序列数据挖掘--机器学习+统计学方法+kdd论文(三)----Tripoles: A New Class of Relationships in Time Series Data的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/923515

相关文章

51单片机学习记录———定时器

文章目录 前言一、定时器介绍二、STC89C52定时器资源三、定时器框图四、定时器模式五、定时器相关寄存器六、定时器练习 前言 一个学习嵌入式的小白~ 有问题评论区或私信指出~ 提示:以下是本篇文章正文内容,下面案例可供参考 一、定时器介绍 定时器介绍:51单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 定时器作用: 1.用于计数系统,可

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

[word] word设置上标快捷键 #学习方法#其他#媒体

word设置上标快捷键 办公中,少不了使用word,这个是大家必备的软件,今天给大家分享word设置上标快捷键,希望在办公中能帮到您! 1、添加上标 在录入一些公式,或者是化学产品时,需要添加上标内容,按下快捷键Ctrl+shift++就能将需要的内容设置为上标符号。 word设置上标快捷键的方法就是以上内容了,需要的小伙伴都可以试一试呢!

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

电脑不小心删除的文件怎么恢复?4个必备恢复方法!

“刚刚在对电脑里的某些垃圾文件进行清理时,我一不小心误删了比较重要的数据。这些误删的数据还有机会恢复吗?希望大家帮帮我,非常感谢!” 在这个数字化飞速发展的时代,电脑早已成为我们日常生活和工作中不可或缺的一部分。然而,就像生活中的小插曲一样,有时我们可能会在不经意间犯下一些小错误,比如不小心删除了重要的文件。 当那份文件消失在眼前,仿佛被时间吞噬,我们不禁会心生焦虑。但别担心,就像每个问题

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

硬件基础知识——自学习梳理

计算机存储分为闪存和永久性存储。 硬盘(永久存储)主要分为机械磁盘和固态硬盘。 机械磁盘主要靠磁颗粒的正负极方向来存储0或1,且机械磁盘没有使用寿命。 固态硬盘就有使用寿命了,大概支持30w次的读写操作。 闪存使用的是电容进行存储,断电数据就没了。 器件之间传输bit数据在总线上是一个一个传输的,因为通过电压传输(电流不稳定),但是电压属于电势能,所以可以叠加互相干扰,这也就是硬盘,U盘