【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

本文主要是介绍【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1 基本信息

院校：德国的图宾根大学
网站：https://www.katrinrenz.de/plant

现在的基于学习的方法使用高精地图和BEV，认为准确的（达到像素级的pixel-level）场景理解是鲁棒的输出的关键。recovering pixel-level BEV information from sensor inputs。

作者认为这么丰富的信息是不必要的，仅仅使用低维的（物体级的object-level）特征——周车和routing信息即可。
在这里插入图片描述

在这里插入图片描述

tokenization是指从场景如何获取token的过程。作者用的carla，细节略。直接看的得到的token。
Vt是车辆信息，St是routing信息。包含类型z，相对于自车的bouding box的位置x和y，长宽h和w，方向fai，一共6维。

将tokens输入给一个线性层，原来的6维变成H（hidden）维，再分别加入偏置ev和es，得到e。
在这里插入图片描述

输入是3.2的线性化后的Vt+St和一个cls token（H维），transformer采用了BERT架构，输出采用GRU，通过自回归的方式输出Wx2的轨迹点。

将transformer的输出h（每个周车都有h），经过一个线性层linear layer预测速度/位置/方向等。

自车规划任务：自车轨迹的l1loss。
周车预测任务：交叉熵损失。

这篇关于【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！