【读论文】Learning perturbations to explain time series predictions

2024-06-21 21:52

本文主要是介绍【读论文】Learning perturbations to explain time series predictions,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • Abstract
  • 1. Introduction
  • 2. Background Work
  • 3. Method
  • 4. Experiments
    • 4.1 Hidden Markov model experiment
    • 4.2 MIMIC-III experiment
  • 5. Conclusion
  • References

  • 论文地址:Learning Perturbations to Explain Time Series Predictions
  • 代码地址:https://github.com/josephenguehard/time_interpret
  • 收录于:PMLR 2023
  • 引用格式【GB/T 7714】:Enguehard J. Learning perturbations to explain time series predictions[C]//International Conference on Machine Learning. PMLR, 2023: 9329-9342.

Abstract

解释“基于多变量时间序列数据的预测”的困难在于:不仅要处理多个特征,还要处理时间依赖性。而且根据时间信息的不同,相同的特征可能会对预测产生截然不同的影响。(在多变量时间序列预测上进行解释的难点)

以前的工作使用了基于扰动的显著性方法来解决这个问题,使用可训练的掩码来对输入进行扰动,以发现哪些特征在哪些时间驱动了模型的预测结果。然而,这类方法从静态数据的类似方法中得到启发,引入了固定的扰动,而在时间序列数据上似乎没有什么动机这样做。(原有方法存在的问题)

在这项工作中,我们的目标是通过不仅学习掩码,而且通过学习相关的扰动来解释预测。(本文的做法)

我们的经验表明,学习这些扰动显著提高了在时间序列数据上解释结果的质量。(效果)

1. Introduction

尽管目前已经提出了许多解释神经网络的方法,但在多元时间序列数据上的解释方法的研究还相对不足。然而,这种类型的数据在医疗领域尤其重要,其中的数据可以是带有时间戳的医疗事件列表或生命体征测量值。因此,对于这种时间因素的处理是至关重要的。

目前,针对多元时间序列数据的解释方法研究主要包括:

  • RETAIN1,这是一种基于注意力的模型,可以通过特征和时间来学习这种注意力;
  • FIT2,它通过量化预测分布的变化来估计特征随时间的重要性;
  • DynaMask3,将基于扰动的方法应用于多元时间序列。

在这项工作中,我们的目标是进一步改进基于扰动的解释方法,以使其适应于多变量时间序列数据。

在 Fong & Vedaldi (2017)4 和 Crabbé & Van Der Schaar (2021)3 等人的研究中,虽然掩码(mask)是可学习的,但这个掩码引起的扰动是固定的。例如,Fong & Vedaldi (2017)4 根据特征的掩码值用高斯模糊(特征周围数据的加权平均值)替换特征,掩码值越低,模糊量越高。Crabbé & Van Der Schaar (2021)3 也采用了这种方法,在时间上对数据进行高斯模糊。这种方法对于图像似乎是合理的,其中的信息可以被认为是局部的,这就解释了为什么卷积神经网络(cnn)具有有限的过滤器大小,但在这类数据上仍然表现得很好。然而,多变量时间序列可能具有长期依赖性,这使得使用时间高斯模糊作为扰动不那么明显。

我们可能不想用局部平均值替换被掩盖的特征,而是想用时间更远的数据来替换它。这就需要用可学习的扰动来代替固定的扰动

2. Background Work

在这一节中,作者介绍了 Fong & Vedaldi (2017)4 和 Crabbé & Van Der Schaar (2021)3 等人的研究。

3. Method

虽然 Crabbé & Van Der Schaar (2021) 提出的时间扰动是 Fong & Vedaldi (2017) 在计算机视觉环境中定义的扰动的适应,但这些扰动是固定的和局部的。它们实际上要么被定义为移动平均扰动,要么被定义为时间高斯模糊。然而,时间数据通常具有长期依赖性,因此局部信息可能不足以确定特定时间特征的重要性。

例如,时间数据可以包括重复的模式(周期性)。比如下面这个例子:
在这里插入图片描述
在上图中,第1张图为原始数据图像。假设我们的目标是评估第三个尖峰的重要性,这个尖峰很可能不重要,可能只有最后一个尖峰才重要。然而,使用高斯模糊(第2张图)或移动平均(第3张图)会显著改变输入,这可能导致解释方法错误地声明该峰值很重要。另一方面,我们学习到的扰动(第4张图)应该用另一个峰值替换解释的数据,导致输出的差异很小,因此正确地说明该数据不重要。

这种见解需要一个广义的扰动,它可以调整到我们要解释的数据。

第一个想法是通过优化类似于 a r g min ⁡ m ∈ [ 0 , 1 ] n λ ∣ ∣ m ∣ ∣ 1 + L ( f ( x ) , f ( Φ ( x , m ) ) ) arg\min_{m\in [0,1]^n} \lambda ||m||_1 + \mathcal{L}(f(x),f(\Phi(x,m))) argminm[0,1]nλ∣∣m1+L(f(x),f(Φ(x,m))) 的函数,直接学习这个扰动 Φ ( x ) \Phi(x) Φ(x) ,而不需要掩码。然而,这种方法存在的问题在于,它给了扰动模型太多的自由,会鼓励输出稀疏的解释。

因此我们需要约束扰动算子来解释输入数据的每一部分。我们从 Crabbé & Van Der Schaar (2021) 设计的扰动算子中获得灵感,这些扰动算子通常定义为 m × x + ( 1 − m ) × μ ( x ) m\times x + (1-m)\times \mu(x) m×x+(1m)×μ(x) ,其中, μ ( x ) \mu(x) μ(x) 定义了扰动的方式。

Crabbé & Van Der Schaar (2021) 设计的扰动算子:
Φ ( x , m ) t , i = { m t , i × x t , i + ( 1 − m t , i ) × μ t , i m t , i × x t , i + ( 1 − m t , i ) × μ t , i p ( 1 ) ∑ t ′ = 1 T x t ′ , i × g σ ( m t , i ) ( t − t ′ ) ∑ t ′ = 1 T g σ ( m t , i ) ( t − t ′ ) \Phi(x,m)_{t,i}=\begin{cases}m_{t,i} \times x_{t,i} + (1-m_{t,i})\times \mu_{t,i}\\m_{t,i} \times x_{t,i} + (1-m_{t,i})\times \mu^p_{t,i} \quad\quad\quad\quad\quad (1)\\\frac{\sum^T_{t'=1} x_{t',i} \times g_{\sigma(m_{t,i})}(t-t')}{\sum^T_{t'=1}g_{\sigma(m_{t,i})}(t-t')}\end{cases} Φ(x,m)t,i= mt,i×xt,i+(1mt,i)×μt,imt,i×xt,i+(1mt,i)×μt,ip(1)t=1Tgσ(mt,i)(tt)t=1Txt,i×gσ(mt,i)(tt)
其中,

μ t , i \mu_{t,i} μt,i x : , i x_{:,i} x:,i 在时间 t t t 前后 W W W 时间窗口上的平均值。即:
μ t , i = 1 2 W + 1 ∑ t − W t + W x t ′ , i ( 2 ) \mu_{t,i}=\frac{1}{2W+1}\sum^{t+W}_{t-W}x_{t',i} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (2) μt,i=2W+11tWt+Wxt,i(2)
μ t , i p \mu^p_{t,i} μt,ip x : , i x_{:,i} x:,i 在时间 t t t W W W 时间窗口上的平均值。即:
μ t , i p = 1 W + 1 ∑ t − W t x t ′ , i ( 3 ) \mu^p_{t,i}=\frac{1}{W+1}\sum^{t}_{t-W}x_{t',i} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (3) μt,ip=W+11tWtxt,i(3)
g σ ( m t , i ) ( t ) g_{\sigma(m_{t,i})}(t) gσ(mt,i)(t) 是时间高斯模糊,其计算方式为:
g σ ( m t , i ) ( t ) = e x p ( − t 2 2 σ 2 ) ; σ ( m ) = σ m a x ( 1 − m ) ( 4 ) g_{\sigma(m_{t,i})}(t)=exp(-\frac{t^2}{2\sigma ^2}); \sigma(m)=\sigma_{max}(1-m) \quad\quad\quad\quad\quad (4) gσ(mt,i)(t)=exp(2σ2t2);σ(m)=σmax(1m)(4)

在这项工作中,我们提出用神经网络 (NN) 来代替上述这些固定的扰动函数 (1)(2)(3),并结合掩码来进行训练。因此,我们的扰动定义为:
Φ ( x , m ) = m × x + ( 1 − m ) × N N ( x ) ( 5 ) \Phi(x,m)=m\times x + (1-m)\times NN(x) \quad\quad\quad\quad\quad\quad\quad\quad\quad (5) Φ(x,m)=m×x+(1m)×NN(x)(5)
其中, 0 ⩽ m ⩽ 1 0\leqslant m \leqslant 1 0m1

在实践中,我们将模型 N N ( x ) NN(x) NN(x) 定义为 x t , i , t ∈ { 1 , . . . , T } x_{t,i},t\in \{1,...,T\} xt,i,t{1,...,T} 的加权和,因此我们选择双向GRU模型5来定义这个神经网络。

在实验中,我们还将双向GRU模型和单向GRU模型进行了对比,单向GRU模型的效果更接近于 Crabbé & Van Der Schaar (2021) 中的 μ t , i p \mu^p_{t,i} μt,ip

和 Crabbé & Van Der Schaar (2021) 类似,我们旨在掩盖尽可能多的数据,同时保持与原始数据尽可能接近的预测。因此,我们的优化目标为:
a r g min ⁡ m , Θ ∈ N N λ ∣ ∣ m ∣ ∣ 1 + L ( f ( x ) , f ( Φ ( x , m ) ) ( 6 ) arg\min_{m,\Theta\in NN}\lambda ||m||_1 + \mathcal{L}(f(x),f(\Phi(x,m)) \quad\quad\quad\quad\quad\quad\quad\quad\quad (6) argm,ΘNNminλ∣∣m1+L(f(x),f(Φ(x,m))(6)
其中, Θ \Theta Θ 表示神经网络的参数, L \mathcal{L} L 表示原始预测与扰动预测之间的损失(在分类任务中可以是交叉熵,回归任务中可以是均方误差)。

这个目标函数存在的一个问题是,神经网络可能会倾向于生成更接近于 x x x 的扰动结果 N N ( x ) NN(x) NN(x) 。如果 m = 0 m=0 m=0 ,则 Φ ( x , m ) ≈ x \Phi(x,m) \approx x Φ(x,m)x (几乎没有进行扰动),此时目标函数(6)的取值趋近于0。为了防止这种行为,我们将公式(6)修改为:
a r g min ⁡ m , Θ ∈ N N λ 1 ∣ ∣ m ∣ ∣ 1 + λ 2 ∣ ∣ N N ( x ) ∣ ∣ 1 + L ( f ( x ) , f ( Φ ( x , m ) ) ( 7 ) arg\min_{m,\Theta\in NN}\lambda_1 ||m||_1 + \lambda_2 ||NN(x)||_1 + \mathcal{L}(f(x),f(\Phi(x,m)) \quad\quad (7) argm,ΘNNminλ1∣∣m1+λ2∣∣NN(x)1+L(f(x),f(Φ(x,m))(7)
在公式(7)中,我们设置了两个正则化项: ∣ ∣ m ∣ ∣ 1 ||m||_1 ∣∣m1 ∣ ∣ N N ( x ) ∣ ∣ 1 ||NN(x)||_1 ∣∣NN(x)1 。结合扰动公式 Φ ( x , m ) = m × x + ( 1 − m ) × N N ( x ) \Phi(x,m)=m\times x + (1-m)\times NN(x) Φ(x,m)=m×x+(1m)×NN(x) 可以看出:

  • m m m 越小, Φ ( x , m ) \Phi(x,m) Φ(x,m) 生成的扰动样本越接近于 N N ( x ) NN(x) NN(x) ,即正则化项 ∣ ∣ m ∣ ∣ 1 ||m||_1 ∣∣m1 诱导 Φ ( x , m ) \Phi(x,m) Φ(x,m) 生成的扰动样本接近于 N N ( x ) NN(x) NN(x)
  • N N ( x ) NN(x) NN(x) 越小, Φ ( x , m ) \Phi(x,m) Φ(x,m) 生成的扰动样本越接近于0(无信息),即正则化项 ∣ ∣ N N ( x ) ∣ ∣ 1 ||NN(x)||_1 ∣∣NN(x)1 诱导 Φ ( x , m ) \Phi(x,m) Φ(x,m) 生成的扰动样本接近于0(无信息);
  • 而公式(7)中的损失函数 L \mathcal{L} L 则诱导 f ( Φ ( x , m ) f(\Phi(x,m) f(Φ(x,m) f ( x ) f(x) f(x) 尽可能接近。

三者相互制约。

4. Experiments

作者在两个数据集上进行了实验:使用隐马尔可夫模型生成的合成数据集3 和 真实数据集MIMIC-III6

4.1 Hidden Markov model experiment

作者按照 Crabbé & Van Der Schaar (2021) 的做法,使用2状态隐马尔可夫模型生成1000个时间序列(具体做法可参考 Crabbé & Van Der Schaar (2021) 论文细节3),并训练一个单层GRU模型来根据 x t x_t xt 预测对应的 y t y_t yt

当知道该数据集的真实显著特征时,可以通过比较每种方法产生的显著特征与基础事实之间的相似性来评估我们的解释方法。和 Crabbé & Van Der Schaar (2021) 的做法相同,作者也使用了精确率曲线下面积 (AUP)、召回率曲线下面积 (AUR)、信息量 ( I M ( A ) I_M(A) IM(A)) 和 掩码熵 ( S M ( A ) S_M(A) SM(A)) 来作为评估指标。表1是实验结果。
在这里插入图片描述
实验结果表明,尽管我们的方法在AUP方面的表现略低于一些基线,但在其他指标上,它的表现明显优于所有其他方法。特别是,虽然它在AUP方面略优于DynaMask,但它在AUR、信息量和掩码熵方面明显产生了更好的结果。

此外,作者还对比了 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2 的不同取值对实验结果的影响:
在这里插入图片描述
从实验结果中可以看出,

  • λ 1 \lambda_1 λ1 接近于1时才能产生较好的实验效果。事实上, λ 1 \lambda_1 λ1 较小时意味着较低的正则化,因此会保留很多不重要的特征;而当 λ 1 \lambda_1 λ1 较大时则会迫使 m m m 接近于0,从而导致大多数的特征被认为不重要。
  • 此外, λ 2 \lambda_2 λ2 需要至少为1才能迫使 N N ( x ) NN(x) NN(x) 学习到无信息的扰动。

4.2 MIMIC-III experiment

和 Crabbé & Van Der Schaar (2021) 的实验类似,作者在真实数据集 MIMIC-III 上对本文提出的解释方法进行了评估。

MIMIC-III 由重症监护病房(ICU)的患者组成,定期测量一些生命体征和实验室检查结果。这里的任务是根据48小时的数据预测每个病人的住院死亡率,每小时离散。缺失的值是使用以前可用的值来输入的。如果没有先前的特征,则输入标准值。

我们训练了一个隐藏层大小为200的单层GRU模型来预测这个住院死亡率(分类任务),我们的目标是解释这个模型。在这个数据集中,真正的显著特征是未知的,我们需要提供不同的指标来评估我们的方法。

评估方式为:将原始预测 与 特定比例的显著特征被掩盖之后的预测 进行了比较,这里用数据样本 对应特征时间维度上的平均值 来 替换被掩盖的特征,即 x ‾ t , i = 1 T ∑ t x t , i \overline{x}_{t,i} = \frac{1}{T}\sum_t x_{t,i} xt,i=T1txt,i ,其中, T = 48 T=48 T=48(小时)。在这里用到的评估指标有:

  • Accuracy (Acc) 准确率:我们屏蔽最显著的特征,并使用这些被屏蔽的数据计算结果的准确性。较低的准确率意味着做出准确预测的重要特征被删除了。因此,这个度量越低越好。
  • Cross-Entropy (CE) 交叉熵损失:我们掩盖最显著的特征,并计算用这些被掩盖的数据与原始数据做出的预测之间的交叉熵。数值越高,表明预测变化越显著,重要特征被删除。因此,这个度量越高越好。
  • Comprehensiveness (Comp) 综合性:我们掩盖最显著的特征,并计算预测类概率与原始类概率相比的平均变化。这个度量越高越好。
  • Sufficiency (Suff) 充分性:我们只保留最显著的特征,计算预测类概率相对于原始类概率的平均变化。这个指标越低越好。

作者在 表4(屏蔽了前20%最显著的数据,并将数据替换为对应特征时间维度上的平均值 x ‾ t , i = 1 T ∑ t x t , i \overline{x}_{t,i} = \frac{1}{T}\sum_t x_{t,i} xt,i=T1txt,i)和 表5(屏蔽了前20%最显著的数据,并将数据替换为对应特征时间维度上的平均值 x ‾ t , i = 0 \overline{x}_{t,i} = 0 xt,i=0)中报告了实验结果:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实验结果表明,我们的方法在每个指标上都明显优于其他方法,无论是使用随时间的平均值还是使用零作为屏蔽数据。这也表明,在解释多元时间序列数据的预测时,使用学习扰动比使用固定扰动更可取。

作者还对比了不同扰动模型的实验效果:

(1)用每个特征随时间的总体平均值替换20%的数据:
在这里插入图片描述
(2)用零替换20%的数据:
在这里插入图片描述

5. Conclusion

我们的研究结果表明,与现有的方法(包括具有固定扰动的DynaMask方法)相比,使用学习扰动可以产生更好的解释。我们还研究了神经网络对扰动建模的选择,发现在MIMIC-III的住院死亡率任务上,单向GRU比双向GRU效果更好,更稳定。

References


  1. Choi, E., Bahadori, M. T., Sun, J., Kulas, J., Schuetz, A., and Stewart, W. Retain: An interpretable predictive model for healthcare using reverse time attention mechanism. Advances in neural information processing systems, 29, 2016. ↩︎

  2. Tonekaboni, S., Joshi, S., Campbell, K., Duvenaud, D. K., and Goldenberg, A. What went wrong and when?instance-wise feature importance for time-series black box models. Advances in Neural Information Processing Systems, 33:799–809, 2020. ↩︎

  3. Crabbé J, Van Der Schaar M. Explaining time series predictions with dynamic masks[C]//International Conference on Machine Learning. PMLR, 2021: 2166-2177. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. Fong, R. C. and Vedaldi, A. Interpretable explanations of black boxes by meaningful perturbation. In Proceedings of the IEEE international conference on computer vision, pp. 3429–3437, 2017. ↩︎ ↩︎ ↩︎

  5. Cho K, van Merriënboer B, Bahdanau D, et al. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches[J]. Syntax, Semantics and Structure in Statistical Translation, 2014: 103. ↩︎

  6. Johnson, A. E., Pollard, T. J., Shen, L., Lehman, L.-w. H., Feng, M., Ghassemi, M., Moody, B., Szolovits, P., Anthony Celi, L., and Mark, R. G. Mimic-iii, a freely accessible critical care database. Scientific data, 3(1):1–9, 2016. ↩︎

这篇关于【读论文】Learning perturbations to explain time series predictions的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082439

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

linux 下Time_wait过多问题解决

转自:http://blog.csdn.net/jaylong35/article/details/6605077 问题起因: 自己开发了一个服务器和客户端,通过短连接的方式来进行通讯,由于过于频繁的创建连接,导致系统连接数量被占用,不能及时释放。看了一下18888,当时吓到了。 现象: 1、外部机器不能正常连接SSH 2、内向外不能够正常的ping通过,域名也不能正常解析。

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

python内置模块datetime.time类详细介绍

​​​​​​​Python的datetime模块是一个强大的日期和时间处理库,它提供了多个类来处理日期和时间。主要包括几个功能类datetime.date、datetime.time、datetime.datetime、datetime.timedelta,datetime.timezone等。 ----------动动小手,非常感谢各位的点赞收藏和关注。----------- 使用datet

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}