麻省理工！FlatFormer: 一种高效的点云Transformer

本文主要是介绍麻省理工！FlatFormer: 一种高效的点云Transformer，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

作者 | 汽车人编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/607958769?

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心技术交流群

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文！

论文：https://arxiv.org/pdf/2301.08739.pdf

作者单位：麻省理工学院上海交通大学清华大学

论文思路：

Transformer，作为CNN的一种替代品，已经被证明在许多模态（例如，文本和图像）中都是有效的。对于3D点云transformer，现有的工作主要集中在将其准确性提高到最先进的水平。然而，它们的延迟滞后于基于稀疏卷积的模型（慢3×），阻碍了它们在资源受限、延迟敏感的应用程序（如自动驾驶）中的使用。这种低效来自于点云的稀疏和不规则的性质，而transformer是为密集、规则的工作负载而设计的。本文介绍了FlatFormer，通过交易空间邻近性（trading spatial proximity ），以获得更好的计算规律性，来缩小这个延迟差距。本文首先使用基于窗口的排序和划分点将点云扁平化(flatten)成相同大小的组(groups of equal sizes)，而不是相同形状的窗口(windows of equal shapes)。这有效地避免了昂贵的结构化和填充开销。然后，本文在组内应用自注意力来提取局部特征，交替排序轴从不同的方向收集特征，并移动窗口来在组间交换特征。FlatFormer在Waymo Open Dataset上提供了最先进的精度，比（transformer-based）SST加速4.6×，比（sparse convolutional）CenterPoint加速1.4×。这是第一个在边缘GPUs上实现实时性能的点云transformer，并且比稀疏卷积方法更快，同时在大规模基准测试上达到同等甚至更高的精度。

网络设计：

图5。FlatFormer将点云划分为相同大小的组（右），而不是相同形状的窗口（左）。这可以有效地利用空间邻近性来获得更好的计算规律性。然后在每个组内应用自我注意来提取局部特征，交替排序轴来聚合不同方向的特征，并移动窗口来在组间交换特征。

FlatFormer的基本构件是Flattened Window Attention（FWA）。如图5r所示，FWA采用基于窗口的排序来flatten点云，并将其划分为相同大小的组，而不是相同形状的窗口。这很自然地解决了组大小不平衡的问题，并避免了填充和分区开销。然后，FWA在组内应用自注意力来提取局部特征，交替使用排序轴来聚集从不同方向上的特征，并移动窗口来在组间交换特征。最后，本文提供了一个FWA的实现，进一步提高了其效率，并最小化了开销。

实验结果：

往期回顾

史上最全综述 | 3D目标检测算法汇总！（单目/双目/LiDAR/多模态/时序/半弱自监督）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！