【论文阅读笔记】Traj-MAE: Masked Autoencoders for Trajectory Prediction

本文主要是介绍【论文阅读笔记】Traj-MAE: Masked Autoencoders for Trajectory Prediction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract

通过预测可能的危险,轨迹预测一直是构建可靠的自动驾驶系统的关键任务。一个关键问题是在不发生碰撞的情况下生成一致的轨迹预测。为了克服这一挑战,我们提出了一种有效的用于轨迹预测的掩蔽自编码器(Traj-MAE),它能更好地代表驾驶环境中智能体的复杂行为。


具体来说,我们的Traj-MAE采用了多种掩蔽策略来预训练轨迹编码器和地图编码器,允许捕获智能体之间的社会和时间信息,同时利用来自多个粒度的环境影响。为了解决使用多种屏蔽策略对网络进行预训练时出现的灾难性遗忘问题,我们引入了一个连续预训练框架,该框架可以帮助Traj-MAE有效地从各种策略中学习有价值的、多样化的信息。我们在多智能体和单智能体设置下的实验结果表明,Traj-MAE使用最先进的方法取得了具有竞争力的结果,并且显著优于我们的基线模型。该准则一经发布,将向公众开放。

1. Introduction

轨迹预测的目标是预测移动主体(例如行人和车辆)的未来轨迹,这是构建安全、舒适、可靠的自动驾驶系统的关键问题[30,61,35,12,49]。许多有前途的工作[21,7,47,25,65,56]已经被学术界和工业界提出了极大的兴趣和需求。研究表明,对智能体之间复杂的相互作用进行建模[45,42,44,6,26]在轨迹预测中非常重要。在此基础上,为了解决碰撞预测问题并生成一致的轨迹预测,有必要对智能体之间的社会和时间关系进行建模,并对地图[2]有一个全局的理解。在本文中,我们使用自监督学习来研究这个问题。

自监督学习旨在从未标记的数据中学习潜在语义,而不是基于人类注释构建表示。近年来,自监督学习在自然语言处理[14,57]和计算机视觉[55,36,4]中的应用取得了显著进展。其中最有前途的自监督方法之一是掩码自编码器(MAE)[22],它在各种任务中都取得了成功[37,51]。此外,在相同的小规模数据集上进行预训练和微调对于学习良好的表示b[15]也是必不可少的。受这些作品的启发,我们的目标是使用掩码自编码器探索智能体与地图的多粒度之间的复杂相互作用。

如何设计一个有效的掩码自编码器来生成一致的轨迹预测?我们试图从以下几个方面来回答这个问题:(i)轨迹和高清地图的信息密度与图像的信息密度有很大的不同。

图像是具有高度空间冗余的自然信号,而轨迹则是具有复杂社会交互作用的连续时间序列信号,而高清地图则包含高度结构化的信息。考虑到这些差异,针对轨迹预测的模型需要进行相应的调整以捕获信息特征。因此,我们研究了不同的掩蔽策略和合适的掩蔽比的轨迹和高清地图。

我们开发了社会和时间掩蔽,使轨迹编码器能够从不同的角度捕获信息。我们还研究了多粒度掩蔽,以强制地图编码器从高清地图捕获结构信息。此外,我们发现无论采用何种掩蔽策略,高掩蔽率(50% ~ 60%)都能产生良好的效果,这就要求编码器对历史轨迹和高清地图有全面的了解。

(ii)缺乏有效的多策略预训练框架对有效的多模态轨迹预测提出了挑战。由于任务的复杂性,传统的从头开始的多任务学习[67]可能难以收敛,而传统的持续学习方法[11,38]由于无法在不忘记先前学习的知识的情况下用多个任务训练网络而受到限制。为了解决这个问题,我们提出了一种新的方法,利用先前学习的参数初始化网络,与原始策略同时训练新策略。因此,我们确保我们的网络可以在保留以前获得的知识的同时获得新的知识。

在此基础上,我们提出了一种高效实用的自监督轨迹预测框架——掩蔽轨迹自编码器(Traj-MAE)。如图1所示,Traj-MAE利用输入轨迹和高清地图的部分屏蔽,分别利用轨迹编码器和地图编码器重建被屏蔽的片段。通过采用多种掩蔽策略对输入轨迹和高清地图的缺失部分进行重构,轨迹编码器和地图编码器可以从多个角度全面理解输入的潜在语义。此外,我们还引入了一种新的连续预训练框架,这是一种高效的学习方法,可以同时使用多种策略训练模型,从而减轻灾难性遗忘的问题。

我们的核心贡献如下:•据我们所知,我们是第一个提出一个简洁高效的自监督轨迹预测的掩蔽轨迹自编码器。

•我们探索了不同的掩蔽策略,充分利用MAE来挖掘历史轨迹和高清地图的潜在语义。同时,提出了一种连续预训练框架,利用多策略对模型进行高效训练。

•我们对Argoverse和INTERACTION进行了广泛的实验,用于自动驾驶轨迹预测,并对TrajNet++的合成分区进行了行人轨迹预测。我们的TrajMAE在这些基准测试中取得了具有竞争力的结果,并且显著优于我们的基线模型。

2. Related Works

轨迹预测被广泛认为是一项序列建模任务,许多基于RNN的方法[1,66,32,8]被提出来建模智能体未来位置的轨迹模式,因为RNN(例如LSTM[23])在序列建模方面取得了显著的成功。由于transforms[53]捕获远程依赖关系的强大能力,许多基于变压器的方法已经出现并蓬勃发展。提出了STAR[60],通过空间和时间转换器之间的交错来捕获复杂的时空相互作用。mmTransformer[30]设计用于分层地聚合过去的轨迹、道路信息和社会互动。为了预测多智能体的未来轨迹,AgentFormer[61]和AutoBots[20]给出了同时对时间维度和社会维度建模的解决方案。增强编码器在两个维度上对信息建模的能力是这项工作的一个有趣的中心焦点。

近年来,自监督学习在自然语言处理和计算机视觉领域取得了显著的成功,尤其是自编码方法。去噪自编码器(DAE)[54]是一种从损坏的输入中重建原始信号的学习表示方法。

BERT[14]可以看作是DAE的发展,它屏蔽输入令牌并训练模型来预测缺失的内容。随着BERT中提出的掩模语言建模(MLM)任务,提出了许多MLM变体[57,5]来提高变压器预训练的性能。同样,在计算机视觉中,自动编码方法经常关注不同的借口任务进行预训练[36,4,22]。其中最流行的一种方法是MAE[22],它随机屏蔽输入的patch,并训练模型在像素空间中恢复被屏蔽的patch。基于MAE的不断进步[16,37,3]验证了其有效性。遵循MAE的概念,我们的方法专注于利用MAE作为一种工具来预训练具有强大特征提取能力的模型编码器。


持续学习是一种解决灾难性遗忘问题的方法,这种问题发生在连续学习不同输入模式的样本中。这些方法大致可分为重播、基于正则化和参数隔离方法[13]。回放方法[40,41,24,10,50]是在学习新任务的同时回放之前的任务样本,以减轻遗忘。相反,在学习新数据时,基于正则化的方法[48,39,63,28]经常在损失函数中引入正则化项来巩固之前的知识。参数隔离方法[31,46]为每个任务分配不同的模型参数,以防止任何可能的遗忘。


在这项工作中,我们提出了一个持续的预训练框架来解决遗忘问题,通过利用相关掩蔽策略的训练样本中包含的特定信息,我们能够提高模型编码器的泛化。

3. Approach

我们的Traj-MAE是一种复杂而有效的自监督方法。图2提供了Traj-MAE框架的概述。在本节中,我们首先介绍我们的骨干网。然后,我们深入分析了轨迹和高清地图重建的掩蔽策略。最后,我们讨论了如何将TrajMAE纳入我们的持续预训练框架。

3.1. Network Backbone

在这项工作中,我们使用具有变压器编码器-解码器架构(详见补充材料)的Autobots[20]作为基线模型来验证所提出方法的有效性。我们的Traj-MAE对输入轨迹和高清地图中的随机部分进行掩码,然后分别重建缺失部分。继MAE[22]和VideoMAE[51]之后,我们采用非对称编解码器设计来减少计算量。


Traj-MAE Encoder。在汽车人中,历史轨迹被编码成上下文张量,连同可学习的种子参数和地图上下文,被传递给解码器来预测未来的轨迹。受此设计启发,我们采用汽车人编码器作为轨迹编码器。然而,在《汽车人》中,高清地图是直接输入到解码器的,这使得模型很难捕捉到高清地图的固有信息。为了解决这一限制,我们引入了一个与轨迹编码器结构相似的地图编码器,以更好地重建被屏蔽的高清地图。然而,我们观察到,直接将地图编码器添加到汽车人的结果几乎没有改善(见补充材料)。然而,我们发现用我们提出的掩蔽和重建策略对地图编码器进行预训练可以进一步提高准确率,验证了我们预训练策略的有效性。


Traj-MAE Encoder。Traj-MAE中的编码器仅处理输入的未屏蔽部分,而解码器则从潜在表示和掩码令牌中重建缺失部分。掩码令牌是共享向量,指示需要预测的缺失部分的存在。此外,将位置嵌入添加到所有令牌中以提供位置信息。Traj-MAE解码器采用比编码器浅的Transformer块设计,仅在预训练期间用于执行轨迹和地图重建策略。这使得解码器架构灵活且独立于编码器架构。使用轻量级解码器进行预训练可以显著减少预训练时间。

这篇关于【论文阅读笔记】Traj-MAE: Masked Autoencoders for Trajectory Prediction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/330628

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓