本文主要是介绍Stochastic Trajectory Prediction with Social Graph Network,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
基于社会图网络的随机轨迹预测
摘要
由于现实世界中人类社会行为的复杂性和未来运动的不确定性,行人轨迹预测是一项具有挑战性的任务。对于第一个问题,现有的方法采用完全连通的拓扑来建模社会行为,而忽略了非对称的成对关系。为了有效地捕捉相关行人的社交行为,我们利用了一个基于及时位置和速度方向动态构建的有向社交图。基于社会图,我们进一步提出了一个收集社会效应和累积个体表征的网络,以生成面向目的地和社会感知的表征。对于第二个问题,我们不是将整个未来的不确定性作为一个整体来建模,而是利用时间随机方法来顺序学习社会互动期间不确定性的先验模型。下一步的预测是通过在前一个模型上采样,然后用分层的LSTMs逐步解码来生成的。在两个公共数据集上的实验结果表明了该方法的有效性,尤其是在非常拥挤的场景中预测轨迹时。
1. 介绍
给定对历史轨迹的观察,学习预测未来行人位置在许多应用中是一项基本任务,例如自动驾驶、机器人导航等。尽管已经进行了大量的研究[1,3,11],但在拥挤的场景中捕捉复杂的社会互动仍然是一项挑战。例如,一个人可以独自行走,也可以和其他人在一个一致的群体中行走。当一个人加入或离开时,一个群体可能会改变。因此,个人的轨迹通常会受到他人的影响,以避免在遵循合理的社会规范的同时发生碰撞。此外,未来的路线总是模糊的,这意味着不止一条路可以到达同一个目的地。
受此启发,我们强调了在轨迹预测中至关重要的两个因素:
1).人与人之间的社会互动是非对称的。
与以前的工作[1,9,25,29]相比,我们提出行人之间的成对社会互动应该是非对称的。比如一个人总是关注前面的行人,很少察觉后面的行人。为了模拟这一点,我们将社会拓扑建模为有向图。然后,我们提出了一个图形网络,它积累了与内在目的地的社会互动,以捕捉面向目的地的特征丰富的社会互动模式。
2).下一步是不确定的,取决于内在目的地和每次的社会选择。
在行走过程中,一个人可能会采取各种灵活的决策来避免碰撞。为了模拟这种不确定性,以前的工作引入了一个单一的随机变量,该变量从观测值的先验分布条件[11]或固定的多变量正态分布[9,20]中取样。单一随机变量将用于生成所有未来步骤。然而,在现实世界中,下一步的选择可能会在行走过程中改变。举个例子,一个人可能一开始试图超越前面的人,但他可能会放弃,继续追随。为了模拟时间上的随机性并产生不同的程序,在每个时间步,一个潜在的变量被采样为随机分布,它模拟了直到此刻的下一步的所有可能的选择。
总之,在这篇文章中,我们提出了两个贡献,以产生所有面向目的地和社会可容许的未来轨迹。一种新的社交图网络可以有效地提取非对称的成对关系和社交互动。一种随机方法可以预测下一步不同的社会似是而非的选择。最终的随机预测是通过逐步将社会和个人目的地信息与分层LSTM相结合而生成的。
2.相关著作
预测未来一直是计算机视觉中具有挑战性的问题。在视频帧预测([2,5])、运动流预测[26]、交通预测[13]、汽车轨迹预测[19]等领域得到了广泛的研究。为了预测行人轨迹,已经提出了许多方法来预测第一人称视角[15,28],与非同质行业代理的合作[14],团队运动[6]等。在本文中,我们将重点放在仅给定世界坐标输入的固定摄像机视图下的预测。
**轨迹预测:**早期的工作使用启发式特征来模拟人与人之间的相互作用。例如,在社会力模型[10]中,每个轨迹都是通过向预期目的地施加吸引力和排斥力来避免碰撞而产生的。但社会力量只考虑个体历史,线性轨迹回避(LTA [16])通过共同预测场景中其他行人和障碍物的运动来预测未来轨迹。
在过去的几年里,基于RNNs的数据驱动方法在序列数据建模方面表现出了强大的能力。在RNN的基础上,社会LSTM [1]首次提出了社会池,它通过用预定义的规则网格总结邻居行人的状态来更新每个行人的隐藏状态。为了克服外部网格的局限性,社交池倾向于在[9]中使用多层角色(MLP)网络。SR-LSTM [29]通过学习其他行人的注意力,在每个时间步长迭代地细化LSTM的细胞和隐藏状态。类似的注意机制也可以在[25]中找到。CIDNN [27]使用空间相似性来替换注意力权重,注意力权重是当前位置的嵌入表示的内积。为了提高训练效率,对抗训练也被引入[9,30]。
随机预测:在轨迹预测中,以前的大部分工作都是用一个单一的随机变量来建模可能的多样性。基于条件自动编码器(CV AE,[21])框架,Lee等人根据RNN给出的观测轨迹摘要对潜在变量进行采样,然后解码成一个序列。然而,他们没有考虑到行人在发电过程中的相互作用。索菲[20]通过采样白噪声并与CNN提取的场景信息连接作为输入,修改了解码器LSTM。为了产生概率预测,苏等人[22]在隐态上增加了2个高斯过程。类似地,LTA [17]的随机扩展通过将原始能量扩展成概率形式来获得一组可能的未来状态,然后通过拟合高斯混合模型来估计吉布斯势。
VRNN [4]首先引入了时间随机隐变量,它依赖于当前LSTM隐状态和每个时间步长的输入。在VRNN的基础上,[7,8]将随机潜变量扩展为时变的,并增加了一个辅助的反向LSTM用于训练。这些模型的主要区别是选择先验、近似后验模型和损失函数。[23]中最近的一项工作与我们的工作类似,它将VRNN中的隐藏状态与完全连通的图形交互网络相关联。与我们不同,它们引入上下文图像作为附加输入,并通过视觉解码器和VRNN解码器的加权组合来生成预测。此外,他们研究了具有高度协作代理的团队运动,而我们工作中的社交互动更加灵活,既有协作代理,也有独立代理。我们的工作也受到[5]关于跨时间学习动态先验模型的启发。不同的是,我们使用社交图的输出作为解码器来逐步集成不同的信息。虽然随机框架是相似的,但[5]旨在对视频预测中的帧不确定性进行建模,而我们的目标是捕捉轨迹预测问题中的社会交互不确定性。
图1:整体方法的图示。在每个时间步骤中,每个代理的状态(位置和速度)通过社交图网络和LSTM进行处理,以编码个人和社交互动。然后从先验高斯分布中抽取一个随机变量,并最终用于生成对智能体运动的预测。我们用菱形表示确定性变量,用圆形表示随机变量。为简洁起见,省略了推理模型。
3. 方法
3.1问题表述
假设一个场景中有N个行人,则在时间t处第j个行人的空间位置可以表示为pj,t =(xj,t,yj,t)。问题在于,给定观察到的Tobsframe为{pj,t,j = 1,…,N; t = 1,…,Tobs},我们需要预测接下来几帧{pj ,t,j = 1,…,N,t = Tobs + 1,…,T}。我们的模型的体系结构如图1所示。它由三个模块组成,包括:1)编码器:一个用于学习社交互动和个体表示的社交图网络(请参阅第3.2节); 2)随机的:用于生成以编码器输出为条件的潜在变量的时间随机模型(请参见第3.3节); 3)解码器:一种解码器模型,用于预测每个代理的速度。给定预测的速度和当前位置,只需添加一个即可找到下一个位置。
3.2社会图网络
在每个时间t,可以构造有向图Gt =(Nt,Et,At),称为有向图。在该图中,每个节点表示场景中的行人,因此在整个序列中Nt不会改变。 Etre表示由邻接矩阵At确定的一组有向边。当邻接矩阵(aij,t)中的元素等于1时,存在来自节点nito节点nj的边缘。
如图2所示,我们为每个行人导出一个视图区域,并通过插入视图区域内所有人的边来构造及时的社交图。例如,标有橙色和蓝色的两个人在标有紫色的人的可见视图中。这意味着紫人的未来之路可能会受到这两个人的影响。因此,从橙色和蓝色节点到紫色节点添加了两条边。但是,三个绿色人不在紫色的范围内,因此从紫色到绿色不存在任何边缘。具体而言,要构建视图区域,我们将速度方向用作眼睛的固定方向,并将弧形区域扩展到预定义的视角。在本文中,由于可能的眼睛或头部移动,视角设置为240度,该角度大于最大人眼角度。如果一个人站着不动(如图2中的橙色节点),则从所有其他节点插入输入边。原因是静止的人可以向任何方向移动,并且需要注意现场的所有人。此外,如果给出了上下文图像,则可以通过估计头部姿势来找到精确的视图区域。由于步行过程中行人的相对位置可能会发生变化,因此社交图的拓扑在整个序列中并不一致。每次,我们都会根据当前行人的布局和速度来更新社交图。
图2:社交图的示例
然后在时间t,可以将每个节点(j)和edge((i,j))的嵌入表示推导为:
其中fn,fe和fp是神经网络(在本文中,我们对所有f ∗使用一层MLP),它们分别对节点,边和成对关系进行编码。 fp的输入指示成对关系,可以在两个不同的坐标系中进行测量:
直角坐标系:fp(pi,t-1,pj,t-1)= fp(pi,t-1-pj,t-1)。输入为成对位置位移。
极坐标:fp(pi,t-1,pj,t-1)= fp(Polarpi,t-1(pj,t-1))。输入是参考点为pi,t-1的局部极坐标系中pj,t-1的坐标。
在实验上,我们发现极坐标表示的性能略好于笛卡尔坐标表示。好处可能来自距离和方向因子的解缠。
为了获得社交互动功能,社交块被设计为通过累积邻域信息来更新节点表示。形式上,在时间t -1时,第j个节点的第k个社交块的更新方程为:
其中Mij,t-1表示从节点i到j的消息,fs表示神经网络。最初,x(0)j,t-1 = ej,t-1,x(0)ij,t-1 = eij,t-1。 aij,t-1表示在时间t-1时社交图的邻接矩阵中的ij元素。在Eqn中。 (3),每个节点的特征将通过聚集来自其邻居节点的信息来更新。消息Mijat时间t − 1计算为:
为了简洁起见,此处省略下标t − 1。在等式(4)中,αij是边(i,j)的标量,g是元素选择的社会门,gate是元素乘积算子。直觉上,注意力值衡量每个边缘的重要性,而社交门则作为元素的特征选择,类似于[29]中的运动门。
我们采用与[24]类似的注意力计算:
社交门的计算公式为
其中fg是一个神经网络。
我们可以依次堆叠多个(= K)社交块。在时间t -1处第j个行人的最终输出特征是最后一个社交块xK j,t-1的输出,它对内在目的地和社交互动进行编码。
3.3随机轨迹预测
为了生成随机预测,我们的时间模型在每个时间步长对每个潜在变量进行采样。受[5]的启发,我们定义以下更新公式:
其中xt表示在时间t来自社交图网络模块的输出节点特征,zt表示采样的随机潜在变量,表示在Eqn中嵌入的节点。 (1),, vt表示输出速度预测。在所有三个方程式中,均使用LSTM模型对过去的历史进行编码。
先前的LSTMψ是根据其过去的递归隐藏状态轨迹学习的。用于推理的后验模型LSTMφ对当前时间步长上的场景进行编码。先验模型被学习为近似后验模型,以捕获不确定的社会互动。详细说明可以在[5]中找到。
在生成步骤中,使用分层LSTM逐步解码行人特征。第一个将社会编码特征作为输入的LSTM会产生可能在社会上合理的预测,而第二个将单个嵌入作为输入的LSTM旨在调整朝着单个目的地的预测路径。
最后,通过最大化变化下限来端到端训练网络
其中第一似然项可以减少为预测结果与真实性之间的L2重建损失。选择超参数β作为重构误差和样本多样性之间的平衡。我们将高斯分布用于先验模型和后验模型,并将重新参数化技巧用于SGD训练。
4 实验
4.1 数据集和指标
数据集:我们在两个公开的数据集上评估了我们的方法:ETH [18]和UCY [12],它们由丰富的现实世界中人与人之间的互动组成。这两个数据集包含5个场景,其中包括ETH的2个场景(大学和酒店)和UCY的2个场景(zara和大学)。场景的平均行人人数对于UCY是18.0,对于ETH是5.9。所有轨迹坐标都将转换为世界坐标,并进行插值以每0.4秒对坐标进行采样。总共有1536名行人,涉及复杂的社会互动。在先前的工作[1,29]之后,我们使用留一法进行评估。同样,我们以8帧(= 3.2秒)作为观察,并预测接下来的12个时间步长(= 4.8秒)。
指标:根据[1,29],我们以米为单位评估了两个误差指标。
平均位移误差(ADE):在所有预测时间步中,地面真相与预测坐标之间的平均欧几里得距离。
最终位移误差(FDE):地面真相与最后一帧的预测坐标之间的欧几里得距离。
4.2实施细节
嵌入(ej)和社交(xj)功能的维数都设置为32。对于先前和后继LSTM,隐藏状态的维数均为32,对于解码器LSTM,其隐藏状态的维数为64。表3详细说明了一个社交街区的网络配置。批量大小为16个场景,行人数量可变。采用Adam优化器,其初始学习率为5e-4,历元数为300,所有实验的β= 1e-4。
在预测期间,我们使用单步模式,这表明我们迭代地将先前的预测结果用作该步的输入。相反,在训练过程中,输入始终是最后一帧的真实内容。
4.3 与现有方法的比较
基线:使用一些基线进行比较,包括确定性方法和随机方法。对于确定性方法,我们选择线性(通过最小二乘误差最小化训练的线性回归)和三种基于LSTM的方法,包括香草LSTM(表示为LSTM),社交LSTM(表示为S-LSTM)和SRLSTM。对于随机方法,我们选择CVAE(使用与[11]相同的网络设置)和两种引入高斯白噪声的随机方法(分别表示为SoPhie [20]和SGAN [9])。为了公平比较,我们考虑仅具有轨迹输入的模型,而没有SoPhie中的场景图像。对于随机方法,将生成20个样本进行评估,而确定性方法仅产生一个最佳预测。
如表所示。如图1所示,我们的方法可以与当前的最新方法取得可比的结果。特别是,与ETH数据集相比,减少错误在UCY中意义重大。由于UCY包含更多具有复杂社交互动的拥挤场景,因此受益于我们的社交图网络,我们的方法证明了在拥挤场景中处理复杂非线性轨迹时的优越性。对于ETH,我们的结果比SR-LSTM稍差,但仍比其他随机方法好。由于ETH中的交互简单且路径不明确,因此确定性方法仅通过优化重建损失便具有优势。
与其他方法的比较。标有*的结果将从纸上复制。标有†的结果是在多个(= 20)样本上计算的。
表2:不同配置的评估结果。 DG表示我们的社会有向图。 SG表示社交门。极坐标表示极坐标。 K表示社交区块的数量。
4.4 消融研究
4.4.1成分分析
表2给出了根据是否要使用我们的有向图,社交门,极坐标和社交图网络中不同数量的块而变化的几种方法的结果。当禁用有向图时,将使用无向的全连接图拓扑,其中邻接矩阵中的所有元素均为1。从表中可以注意到,有向社交图可以将误差从0.64显着减少到0.58。 ,这表明选择引人注目的行人对于提高性能至关重要。另一个显着的错误减少来自于社交门的引入,这表明按元素进行社交功能选择有助于在消息传递过程中过滤信息。一般而言,进行更多细化(K = 2)的效果要好于一步式社交计算。
4.4.2 定性分析
**社会意识的预测。**在图3中,我们说明了六个人群场景,其中目标人必须调整其通往目的地的路径。如图所示,我们的方法可以学习社会规范,并能够调整通往目的地的路径。例如,当遇到一个小组时,如图3(b)和(f)所示,我们的预测会绕道而行,以避免进入小组。在图3(d)中,我们的结果给出了合理的例行程序,可以在人群中行走而不会发生碰撞。我们的方法还可以捕获潜在的社会意图,例如在图3(e)中生成一个新的群体。在演示视频中可以找到更多结果。
**随机运动。**通常,预测是不确定的,尤其是当以低速行走或在交叉路口附近时。图4显示了我们在这些情况下的预测结果。如图4所示,在道路拐角处,我们的方法提供了两种选择:直行或右转。值得注意的是,所生成的随机预测仍不会破坏一致性小组的步伐。
**社会关注。**图5示出了在同一拥挤场景中一些示例行人的注意值。它表明我们的有向图可以帮助过滤无关的行人(用灰色圆圈标记)。注意力主要集中在周围的人上,而他仍然注意到其他可能影响其日常活动的行人。
图3:具有各种社交互动的预测轨迹的图示:(a)集体散步(b)与组交叉。 (C)追随者。 (d)人穿越 (e)人合并。 (F)避免群体。这里的红线:观察到的历史记录绿线:未来的真相黄线:我们的多次预测结果。 (彩色最佳视图)
图4:根据我们的模型得出的各种预测的示例。 (a)横穿马路(b)站立的人(c)突然转弯。
图5:在同一场景下,不同目标行人的注意值的图示。每个圆圈代表场景中的行人。红色圆圈是目标行人,他们关注洋红色节点表示的行人,而不关注灰色节点。黑色箭头给出目标的速度,而绿色箭头给出其他行人的速度。洋红色圆的半径与注意力值成正比。
5 总结
在本文中,我们提出了一种具有社会图网络的时间随机模型,以解决预测人群中所有社会合理轨迹的问题。我们提出了一种有向社交图和一个网络来对个人和社交特征进行编码。另外,我们利用时间随机模型,该模型在每个时间步顺序学习动态先验模型。最终的单步预测是通过从先验模型进行采样生成的,并使用分层LSTM进行逐步解码。我们对真实数据集的实证评估表明,我们在拥挤场景中的当前最先进方法得到了改进。将来,我们计划引入上下文图像来完善我们的社会图结构,并添加从上下文图像中获得的场景语义,例如障碍物和道路。
这篇关于Stochastic Trajectory Prediction with Social Graph Network的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!