本文主要是介绍麻省理工!FlatFormer: 一种高效的点云Transformer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
作者 | 汽车人 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/607958769?
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心技术交流群
后台回复【领域综述】获取自动驾驶全栈近80篇综述论文!
论文:https://arxiv.org/pdf/2301.08739.pdf
作者单位:麻省理工学院 上海交通大学 清华大学
论文思路:
Transformer,作为CNN的一种替代品,已经被证明在许多模态(例如,文本和图像)中都是有效的。对于3D点云transformer,现有的工作主要集中在将其准确性提高到最先进的水平。然而,它们的延迟滞后于基于稀疏卷积的模型(慢3×),阻碍了它们在资源受限、延迟敏感的应用程序(如自动驾驶)中的使用。这种低效来自于点云的稀疏和不规则的性质,而transformer是为密集、规则的工作负载而设计的。本文介绍了FlatFormer,通过交易空间邻近性(trading spatial proximity ),以获得更好的计算规律性,来缩小这个延迟差距。本文首先使用基于窗口的排序和划分点将点云扁平化(flatten)成相同大小的组(groups of equal sizes),而不是相同形状的窗口(windows of equal shapes)。这有效地避免了昂贵的结构化和填充开销。然后,本文在组内应用自注意力来提取局部特征,交替排序轴从不同的方向收集特征,并移动窗口来在组间交换特征。FlatFormer在Waymo Open Dataset上提供了最先进的精度,比(transformer-based)SST加速4.6×,比(sparse convolutional)CenterPoint加速1.4×。这是第一个在边缘GPUs上实现实时性能的点云transformer,并且比稀疏卷积方法更快,同时在大规模基准测试上达到同等甚至更高的精度。
网络设计:
图5。FlatFormer将点云划分为相同大小的组(右),而不是相同形状的窗口(左)。这可以有效地利用空间邻近性来获得更好的计算规律性。然后在每个组内应用自我注意来提取局部特征,交替排序轴来聚合不同方向的特征,并移动窗口来在组间交换特征。
FlatFormer的基本构件是Flattened Window Attention(FWA)。如图5r所示,FWA采用基于窗口的排序来flatten点云,并将其划分为相同大小的组,而不是相同形状的窗口。这很自然地解决了组大小不平衡的问题,并避免了填充和分区开销。然后,FWA在组内应用自注意力来提取局部特征,交替使用排序轴来聚集从不同方向上的特征,并移动窗口来在组间交换特征。最后,本文提供了一个FWA的实现,进一步提高了其效率,并最小化了开销。
实验结果:
往期回顾
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)
国内首个自动驾驶学习社区
近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称
这篇关于麻省理工!FlatFormer: 一种高效的点云Transformer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!