KDD2020 | 混合时空图卷积网络:更精准的时空预测模型

2024-04-13 22:18

本文主要是介绍KDD2020 | 混合时空图卷积网络:更精准的时空预测模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


来源:新智元

本文约5000字,建议阅读10+分钟

本文提出的混合时空图卷积网络,利用导航数据大大提升了时空预测的效果。

[ 导读 ]时空预测在天气预报、运输规划等领域有着重要的应用价值。交通预测作为一种典型的时空预测问题,具有较高的挑战性。以往的研究中主要利用通行时间这类交通状态特征作为模型输入,很难预测整体的交通状况,本文提出的混合时空图卷积网络,利用导航数据大大提升了时空预测的效果(本文作者高德机器学习团队,论文已被收录到KDD2020)。

日常通勤中的规律往往相对容易挖掘,但交通状况还会受很多其他因素影响,之前的研究主要利用通行时间这类交通状态作为特征,少量研究引入事件,不能很好地预测实际交通流量。

为解决这一问题,本文从高德导航引擎中获取了计划中交通流量,并将其扩充到机器学习模型当中。

计划中交通流量来自导航数据,反映了用户出行意图中蕴含的未来交通流量。由于拥有海量用户,高德地图中的导航规划数据能够较为全面地反应正在发生的通行需求,并且信息粒度较事件级别的特征更精细。

具体来说,规划的路线产生了计划中交通流量,而计划中交通流量可以用来指导对未来通行时间的预测。volf代表当前可获取的导航路径在f个时间步后在此路段产生的计划中交通流量。计划中交通流量的迅速飙升意味着即将到来的交通拥堵。

    

图1  北京某路段在2019年10月28日早高峰期间通行时间和计划中交通流量

为了将交通流量这一异质信号整合到通行时间预测模型当中,我们创新性地设计出一种域转换器(domain transformer)结构,用于将交通流量信息转化为通行时间信息。

交通流理论中,路段的交通流量和车辆密度呈三角形曲线映射关系,而曲线的参数是因路段而异的。图2展示了现实世界中的例子。为了利用这一转换关系,我们设计了将流量转化为通行时间的转换器,该转换器由两层网络构成,分别用于提取全局共享信息和学习不同路段的精细化信息。

      

图2  四个不同路段的流量时间曲线

另一方面,由于交通网络的非欧几里得特性,我们利用图卷积(graph convolution)结构提取空间依赖性特征,并设计了一种新的邻接矩阵用于更好地体现路段间的交通邻近性。

在以往的研究中[6],邻接矩阵的权重只按距离衰减,并没有考虑到路段间固有的交通邻近性(图 3 给出了距离近但交通状态相差较大的例子)。为解决这一问题,我们设计了一种复合邻接矩阵(compound adjacency matrix),在距离衰减的基础上进一步引入了路段通行时间的协方差。

       

图3  相邻道路间拥堵不一定会传播

 

本文提出的混合时空图卷积网络(Hybrid Spatio-Temporal Graph Convolutional Network,H-STGCN)是综合利用上述技术的交通预测框架。

在H-STGCN中,转换器将未来交通流量信号转化为通行时间信号。路段间参数共享的门控卷积用于提取时间依赖信息。

基于复合邻接矩阵的图卷积从合并后的通行时间信号中捕捉空间依赖信息。H-STGCN经由端到端的训练,可具备基于计划中交通流量信息预测未来拥堵的能力。利用真实交通数据集进行实验可验证,H-STGCN的效果显著优于各种前沿模型。

混合时空图卷积网络,独创域转换器和复合邻接矩阵

  • 整体框架

图 4 展示了H-STGCN的整体框架。模型输入由两个特征张量组成,理想未来流量 和通行时间张量 均包含三个维度:空间维度、时间维度、通道维度,分别对应路段、所使用的时间片和特征。

域转换器(模块a)首先将 转化为通行时间信号,输出未来通行时间张量 。接下来,两个独立的门控卷积(模块b)分别作用于 的时间维度以提取更高层级的时域特征。

将每个路段视为一个节点,基于复合邻接矩阵的图卷积(模块c)作用在合并(concatenation)后的信号 上。两个门控卷积继续扩大时域上的感知范围,并最终经由一个全连接层(FC)输出预测结果。

图4  H-STGCN模型框架   
  • 模型输入与数据处理

输入特征张量 的每个切片对应了一个单独的时间片  ( )。每个切片又由两部分组成:理想未来流量和通行时间。

理想未来流量 。作为对真实未来流量这一无法获取信息的近似,理想未来流量 可以通过在线导航引擎获取。图 5 示意了高德导航系统的架构。导航过程中,车辆每秒钟与云服务器同步自身坐标,与此同时,为保证用户获取到最新的交通状态信息,云服务器对ETA进行几乎实时的持续更新。

图5  高德导航系统架构示意

高德导航引擎中原始数据的形式为:

其中 是导航进程的索引号, 是导航 的发起时间, 代表规划路线中的第 个路段, 是到达 的预估时间,  是路线中路段的总数量, 是导航进程的总数量。ETA来自机器学习模型的预测(利用历史轨迹等数据训练得到)。算法 1 展示了从导航路线集合中推算理想未来流量的方法。


H-STGCN中,与预测时间窗口相对应的理想未来流量和历史平均流量同时被输入:

其中 是路段的索引号。

通行时间 。通行时间 通过完成地图匹配的GPS点数据整合计算得到。H-STGCN中,通行时间及其与预测时间窗口相对应的历史均值同时被用于模型的输入:

其中 是路段的索引号。


  • 域转换器

域转换器 由串联的两层网络组成,即逐路段 卷积(segmentwise   convolution)和路段间共享 卷积(shared   convolution),图 4 呈现了这一结构。

图6  H-STGCN中的各种卷积运算


共享 卷积。路段及时间片间参数共享的 卷积层 位于域转换器的顶部,该卷积运算阐释如图 6a,旨在捕捉全局的三角形曲线映射关系。记这一层的输入和输出为 ,则有:

其中 为权重, 为偏置项, 为ELU(Exponential Linear Unit)激活函数。

逐路段 卷积。为保证模型能够充分提取精细到路段级别的特征,路段参数个性化的 卷积层 位于域转换器的底部(共享 卷积前面一层),该卷积运算阐释如图 6b。记这一层的输入和输出为 ,则有:

其中,为权重, 为偏置项, 是ELU激活函数。
  • 基于复合邻接矩阵的图卷积

复合邻接矩阵。以往研究[6,7]中的邻接矩阵假设节点间的接近性简单地依距离衰减:

其中 为路段 的最短路距离, 控制衰减速率, 为控制矩阵稀疏性的截断阈值。我们将 称为迪杰斯特拉矩阵(Dijkstra matrix)。在很多场景下,单纯的空间接近程度并不能反映真实的交通邻近性。更具体而言,交通拥堵对交通分流的影响取决于邻近路段的若干种属性,包括道路等级、路况等。可见,拥堵的传播在空间上并不均匀。由此,我们提出了复合邻接矩阵

图卷积 。我们将交通路网视为一个以路段为节点的图。归一化图拉普拉斯(normalized graph Laplacian)矩阵 和缩放变换的图拉普拉斯(scaled graph Laplacian)矩阵 分别表示为:

其中 为单位阵, 为复合邻接矩阵,对角阵 的度矩阵(degree matrix), 的最大特征值。图卷积层 通过 的切比雪夫多项式(Chebyshev polynomials)参数化。记这一层的输入和输出为

则:

其中, 是切比雪夫多项式第 阶项,K是卷积核大小, 为权重张量, 为偏置项, 是ELU激活函数。

  • 时域门控卷积

如图 6c 所示,路段间参数共享的一维卷积将输入 转化为张量:

其中 表示一维卷积运算符。是卷积核, 是卷积核的大小, 是输入时序长度, 是偏置项。 形状相同、通道数均为 。我们使用GLU(gated linear unit)进一步引入非线性:

”表示哈达玛积(Hadamard product)。

  • 与STGCN的关系

时空图卷积网络(Spatio-Temporal Graph Convolutional Network,STGCN)[7]将空域图卷积层和时域门控卷积层交替地进行堆叠以同时捕捉时间和空间的依赖性。将H-STGCN的流量特征分支和邻接矩阵中的协方差项去掉,则H-STGCN退化为只有单个时空卷积块(ST-Conv block)的STGCN模型。

  • 模型训练

数据扩充 。我们将高斯噪音叠加到流量通道中小于 的值上,以提升模型的泛化能力。

优化目标 。对于本文中的多时间步预测,我们使用L1损失函数:

其中 是模型的输出, 为真值。

 

基于真实路况测试,各项指标均优于传统模型

  • 数据集

实验数据集W3-715和E5-2907,分别对应西三环附近的715个路段和东五环附近的2907个路段(如图 7 所示)。数据集的时间跨度为2018年12月24日至2019年4月21日(其中包含的节假日被移除,共十周数据),保留的时段为每天的06:00至22:00。前八周数据作为训练集,后两周作为测试集。

       图7  实验路网空间分布

  • 对比模型

基线模型,包括历史均值(HA)、线性回归(LR)、GBRT、MLP、Seq2Seq、STGCN(包含单个时空卷积块)。

用于对比实验的变种模型。

STGCN (Im):换用复合邻接矩阵的STGCN(用于和原始的迪杰斯特拉矩阵对比。

H-STGCN (1):将流量特征张量V全部设成1。

 

  • 评价指标

我们在三种测试集上进行模型效果的比对:

全测试集(如4.1节中所描述)。

高流量路段的拥堵时期,用C表示。

高流量路段的突发拥堵时期,用尾缀NRC表示。

  • 效果比较

表 1 展示了在全测试集、测试集C、测试集NRC上不同模型的表现。评估标准包括MAE(s/m)、MAPE(%)和RMSE(s/m)。H-STGCN在各项指标上均显著优于不同的对标模型,在突发拥堵的预测方面优势尤为明显。

    

复合邻接矩阵 。分析表 1 可知,和STGCN相比,STGCN (Im)在W3-715数据集上有着更低的MAE、MAPE,在E5-2907数据集上有着更低的MAE、MAPE及RMSE,证明了复合邻接矩阵的有效性。图 8 以E5-2907数据集为例,对不同邻接矩阵进行可视化。图中颜色代表的值为,(a)为迪杰斯特拉矩阵,(b)为协方差矩阵,(c)为复合邻接矩阵。

 

图8 E5-2970的各种邻接矩阵

未来流量特征和域转换器。如表 1 所示,和STGCN (Im)相比,H-STGCN有着稳定的更优表现,从而证实了利用未来流量数据带来的收益。由于域转换器中逐路段卷积结构的存在,H-STGCN的模型表达能力是强于STGCN (Im)的。为了消除这一影响以针对未来流量特征带来的收益做更公平的分析,我们进一步将H-STGCN与H-STGCN (1)进行对比。

在测试集C、测试集NRC上,不难发现未来流量特征在对拥堵的预测上有显著更优的表现。如图 9 所示,随着预测时间跨度的拉长,未来流量特征带来的收益会起主导作用。

 图9 测试集NRC上效果比对

为了更加直观地对H-STGCN的原理加以剖析,我们这里展示一个突发拥堵预测的案例(如图 10 所示)。这个案例来自2018年4月16日某一高速路段。GT代表真值,HA代表历史均值, 个时间步以前对当前通行时间的预测值, 是对应 个时间步后的理想未来流量。

17:30至18:00拥堵加剧的阶段,H-STGCN (1)提前多个时间步的预测结果和真值相比有明显的时间滞后。相比之下,H-STGCN由于有理想未来流量中的信息,甚至有能力在30min以前就对拥堵有着准确的预测。

我们可以这样理解这一现象: 对应的曲线代表了对15min之后交通流量的近似推算,该曲线在17:15就开始拉升了。基于导航引擎中只有当前时刻已经发起的导航行程这一事实,实际的未来流量要比理想未来流量更高。所以, 的飙升预示着有较大的交通流量正在涌来,这就使H-STGCN能够在没有历史数据做参考的情况下预知未来的拥堵。

图10 突发拥堵预测案例

 

  • 模型可扩展性

模型在W3-715和E5-2097两数据集的预测时间不超过100ms。为了在实际线上应用场景中平衡推演效率和预测效果,我们将城市路网切分成最多包含几千个路段的子路网,每个子路网在线上部署一个模型。

未来将在主动交通管理方面发挥重要作用

H-STGCN已在高德驾车路线的旅行时间预测(ETA)(见图 11)中落地[9,10],并将偏差严重的案例数量降低了15%。

H-STGCN首次以数据驱动的方式建模了用户出行意图与交通路况演化之间的相互作用,未来可以广泛的应用在主动式的交通管理领域,例如智能红绿灯调控[9]、智能道路收费系统[10]等。

               

图11 ETA预测结果的展示

 

本文提出了一种新的用于通行时间预测的深度学习框架:混合时空图卷积网络(H-STGCN),该框架利用从导航数据中推演出的计划中交通流量提升模型效果。在真实场景数据集上进行的实验证实H-STGCN和对标的模型相比取得了更优的效果,在突发拥堵的预测上优势尤为明显。

混合时空图卷积网络提供了一种将物理知识嵌入数据驱动模型的新范式,创新性地应用了复合邻接矩阵和域转换器结构,很容易推广到一般的时空预测任务当中,未来将在智能交通管理等领域发挥重要作用。

 

主要参考文献:

[1] Yaguang Li, Rose Yu, Cyrus Shahabi, and Yan Liu. 2018. Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.

[2] YishengLv, YanjieDuan, WenwenKang, Zhengxi Li, Fei-Yue Wang, etal. 2015. Traffic flow prediction with big data: A deep learning approach. IEEE Trans. Intelligent Transportation Systems 16, 2 (2015), 865–873.

[3] Bing Yu, Haoteng Yin, and Zhanxing Zhu. 2018. Spatio-Temporal Graph Convolutional Neural Network: A Deep Learning Framework for Traffic Forecasting. In Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI).

[4] JingruiHe, WeiShen, Phani Divakaruni, Laura Wynter, and Rick Lawrence. 2013. Improving Traffic Prediction with Tweet Semantics. In Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI). 1387–1393.

[5] Binbing Liao, Jingqing Zhang, Chao Wu, Douglas McIlwraith, Tong Chen, Shengwen Yang, Yike Guo, and Fei Wu. 2018. Deep Sequence Learning with Auxiliary Information for Traffic Prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM.

[6] Yaguang Li, Rose Yu, Cyrus Shahabi, and Yan Liu. 2018. Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.

[7] Bing Yu, Haoteng Yin, and Zhanxing Zhu. 2018. Spatio-Temporal Graph Convolutional Neural Network: A Deep Learning Framework for Traffic Forecasting. In Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI).

[8] Moshe Ben-Akiva, Michel Bierlaire, Haris Koutsopoulos, and Rabi Mishalani. 1998. DynaMIT: A simulation-based system for traffic prediction. In DACCORD Short Term Forecasting Workshop. Delft, The Netherlands, 1–12.

[9] Wei, H., Zheng, G., Yao, H. and Li, Z., 2018. Intellilight: A reinforcement learning approach for intelligent traffic light control. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.

[10] https://en.wikipedia.org/wiki/Congestion_pricing

编辑:王菁

校对:林亦霖

这篇关于KDD2020 | 混合时空图卷积网络:更精准的时空预测模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901366

相关文章

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言