SOTA!纯视觉多视图BEV下的地图生成和障碍物感知(CVPR2022)

2024-02-04 09:10

本文主要是介绍SOTA!纯视觉多视图BEV下的地图生成和障碍物感知(CVPR2022),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者 | 冯偲  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/511477453

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文!

论文名:Cross-view Transformers for real-time Map-view Semantic Segmentation

1引言

本文 提出cross-view transformers的方法,针对纯视觉多视角下的地图生成和障碍物感知任务,设计一个有效的注意力机制网络。直白点就是用于BEV地图生成和障碍物感知的注意力机制网络。目前代码已经开源,从论文公布的结果看,无论在精度还是速度上都达到SOTA。优秀的工作。

d2d0b3b662decf55fe65fcaf71215b2e.png

2显式表达和隐式表达

无论是否使用注意力机制进行BEV的感知,都存在一个问题--在对特征空间位置进行编码,简单点来说就是需要深度的信息用于辅助多视角相机的特征编码。之前的工作诸如lift,fiery等都是显式的使用深度估计编码图像特征,但是由于单目深度估计很难形成有效的深度,所以在作者提出了利用attention机制进行隐式编码。关于这一点,我有不同的看法,无论是lift还fiery都不是使用真的深度进行特征编码,而是使用深度估计的概率值进行特征编码。

3网络结构

设计了一个简单有效的encoder-decoder网络架构用于BEV视图下的障碍物和行车环境的分割。

6ca057550eb336362d6de61f5181ebb7.png

1)用于多视角图像编码的encoder

这部分网络采用的还是cnn的编码方式,使用的骨干网络是EfficientNet-B4。一个输入图像产生产生多个尺度(2个尺度)的特征表达。在这之后是根据ViT的算法思想进行多分辨率的patch embedding。

2)交叉视角的 cross-attention机制

这部分主要是实现了感知相机的位置编码,利用相机独立的校准矩阵(内外参等)对特征进行位置编码。这部分也是论文的核心,利用注意力机制进行处理。在lift、fiery是用深度估计概率编码(卷积的方法)。下面公式是位置编码时候世界相对坐标和图像坐标的处理。

5c48331338db21a47252eaac4a241366.png

3)设计一个轻量级的解码网络decoder

decoder网络上采样调整bev视图的分辨率,并形成最终的分割结果

4实验环境

数据集:nuscense 使用4 GPU,每个GPU的batchsize=4.一共训练了30 epochs.这里要主要整体的batchsize=4*4(pytorchlighting)。训练时间8 hours。

5消融实验和结果

消融实验结果如下,不用多说了,肯定都加上效果才最好。

f3862e48db98cada81f742d75deb2a72.png

结果对比可以看出效果的确不错,和fiery不相上下。虽然在FPS的对比大幅超过其他算法,但是这样比较不合适,毕竟fiery算法还有利用3帧进行未来轨迹预测的GRU网络,而本文并没有。

074d6b9a49d976e2f22e2bf7416b86da.png

可视化结果如下,没有车道线

c7b28f9843208495da96af335c76c768.png

6总结

整体上看在引入注意力机制后,BEV的感知结果好于当下所有算法。工作值得肯定,后面结合代码深入研究一下。另外,劝劝各位cver,ViT系列真香气,真的可以一战,而且用武之地会越来越多。

往期回顾

史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

8bbef0011a6acc8a007e4fc7b0c9e12f.jpeg

这篇关于SOTA!纯视觉多视图BEV下的地图生成和障碍物感知(CVPR2022)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/676975

相关文章

android 带与不带logo的二维码生成

该代码基于ZXing项目,这个网上能下载得到。 定义的控件以及属性: public static final int SCAN_CODE = 1;private ImageView iv;private EditText et;private Button qr_btn,add_logo;private Bitmap logo,bitmap,bmp; //logo图标private st

uniapp H5打开地图

manifest.json文件,源码视图找到H5添加下面内容 "h5" : {"sdkConfigs" : {"maps" : {"amap" : {"key" : "**********************","securityJsCode" : "****************************","serviceHost" : ""}}}} 高德开放平台 申请时选择(W

MySQL数据库(四):视图和索引

在数据库管理中,视图和索引是两种关键工具,它们各自发挥独特的作用以优化数据查询和管理。视图通过简化复杂查询、提高数据安全性和提供数据抽象,帮助用户轻松访问数据。而索引则通过加速查询、确保数据唯一性以及优化排序和分组操作,显著提升数据库性能。理解和合理运用这两者,对数据库系统的高效运行至关重要。 目录 一、视图概念(面试) 二、视图的作用(面试) 三、视图的创建和使用 3.1

FastAdmin/bootstrapTable 表格中生成的按钮设置成文字

公司有个系统后台框架用的是FastAdmin,后台表格的操作栏按钮只有图标,想要设置成文字。 查资料后发现其实很简单,主需要新增“text”属性即可,如下 buttons: [{name: 'acceptcompany',title: '复核企业',text:'复核企业',classname: 'btn btn-xs btn-primary btn-dialog',icon: 'fa fa-pe

把Tiled中做出的地图弄到项目中~~就是懒,为了以后直接复制写过来

1.现在.h中声明private: cocos2d::CCSprite* ninja; cocos2d::CCTMXTiledMap*  tileMap; 然后.cpp中加入tileMap = CCTMXTiledMap::create("MyTileMap.tmx"); CCTMXLayer* backLayer = tileMap->layerNamed("Tile L

一二三应用开发平台应用开发示例(4)——视图类型介绍以及新增、修改、查看视图配置

调整上级属性类型 前面为了快速展示平台的低代码配置功能,将实体文件夹的数据模型上级属性的数据类型暂时配置为文本类型,现在我们调整下,将其数据类型调整为实体,如下图所示: 数据类型需要选择实体,并在实体选择框中选择自身“文件夹” 这时候,再点击生成代码,平台会报错,提示“实体【文件夹】未设置主参照视图”。这是因为文件夹选择的功能页面,同样是基于配置产生的,因为视图我们还没有配置,所以会报错。

PHP生成csv格式Excel,秒级别实现excel导出功能

防止报超内存,兼容中文,兼容科学技术法。 爽。。。。很爽。。。。 /*** 告诉浏览器下载csv文件* @param string $filename*/public static function downloadCsv($data, $filename, $encoding = 'utf-8'){header("Content-type: text/csv");header("Conten

PHP 读取或生成大的Excel

场景,在很多情况下,需要读取Excel文件。 常用的有PHPExcel包或者使用 maatwebsite/excel 包 但是使用这个包读取或生成excel,如果excel文件过大,很容易出现超内存情况。 解决方法: 上传:要求上传者使用.csv 文件上传。然后使用php自带的 fgetcsv()函数来读取文件。http://php.net/manual/zh/function.fgetc

3D模型相关生成

3D模型相关生成 1. DreamFusion Model DreamFusion Model 是一种将文本描述转化为三维模型的技术。你可以想象它是一个“魔法翻译器”,你告诉它一个场景或物体的描述,比如“一个飞翔的龙”,它就能生成一个相应的 3D 模型。 原理: 文本到图像生成:DreamFusion 首先将文本描述转化为一系列可能的 2D 图像。这部分利用了预训练的扩散模型(如 DALL

Java代理-动态字节码生成代理的5种方式

上篇讲到了代理模式出现的原因,实现方式以及跟其他相似设计模式的区别。传送门@_@ http://blog.csdn.net/wonking666/article/details/79497547 1.静态代理的不足 设计模式里面的代理模式,代理类是需要手动去写的。但是手写代理的问题颇多 1.如果不同类型的目标对象需要执行同样一套代理的逻辑,比如说在方法调用前后打印参数和结果,那么仍然需要为每