多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud

本文主要是介绍多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文链接:https://mp.weixin.qq.com/s?__biz=Mzg4MjgxMjgyMg==&mid=2247486213&idx=1&sn=c9680e0c959a6862bc92fea58029cb4c&chksm=cf51b9fcf82630ea7cc727665bbab30178e7652d74edc046f794111819948c5a21480172a50d#rd

CVPR 2023 | Depth Estimation from Camera Image and mmWave Radar Point Cloud

多模态感知论文阅读笔记:CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud

picture 0

Abstract

  • 背景

    • 提出一种从摄像机图像和稀疏雷达点云推断密集深度图的方法

    • Challenge:毫米波雷达点云形成的挑战,如模糊性和噪声 ⇒ \Rightarrow 无法正确映射到camera images上

      ✅ existing works: overlook the above challenge

  • Proposed approach

    • 设计一个网络将每个雷达点映射到图像平面上可能投影的表面
    • 与现有工作不同,我们不直接处理原始雷达点云,而是查询每个原始点与图像中可能的像素进行关联——产生半密集的雷达深度图
    • 提出带门控融合方案,考虑对应分数的置信度,选择性地结合雷达和相机嵌入来产生密集深度图
  • Experiments

    • 在NuScenes基准测试中测试方法,平均绝对误差提高10.3%,均方根误差提高9.1%
    • code: https://github.com/nesl/radar-camera-fusion-depth

1 Introduction

picture 1

P1: 基于雷达 + 相机 的 深度估计

  • 理解3D场景结构可以支持空间任务如导航和操作
  • 相机图像提供每个像素的强度,但由于遮挡或光圈问题难以恢复3D结构
  • 测距传感器通常很稀疏,但提供场景中的一些点的3D坐标(即点云)
  • 目标:利用相机图像和雷达点云的互补性恢复密集3D场景(即相机雷达深度估计)
    • mmWave radar: 比激光雷达廉价、轻量、功耗低

P2: 挑战

  • 毫米波雷达:highly sparse, noisy, and ambiguous AOA
    • ⇒ \Rightarrow 存在很大误差,无法直接映射到camera images上
  • 已有方法:直接处理原始雷达点云,忽略上述挑战

P3: Proposed method

  • 提出从单个雷达和图像帧估算深度
    • 1 首先学习每个雷达点与图像中可能属于的表面之间的 一对多映射来 学习对应关系
    • 2 每个雷达点通过ROI对齐机制与图像中的区域对应——产生 半密集的雷达深度图
    • 3 雷达深度图中的信息由门控融合机制调制, 学习对应关系中的错误模式并自适应地加权其对图像雷达融合的贡献
    • 4 其结果用于增强图像信息,并解码为密集深度图

P4: Contributions

  • 首个 使用单个雷达扫描和单个相机图像来学习雷达到相机的对应关系的方法
    • 以将任意数量的模糊和嘈杂的雷达点映射到图像中的物体表面
  • 引入映射的置信分数
    • 用于融合雷达和图像模态
  • 提出门控融合机制
    • 在雷达深度和图像信息之间自适应调节权衡
  • 优秀的实验性能
    • 尽管只使用单个图像和雷达帧 ⇒ \Rightarrow
    • 超过使用多个图像和雷达帧的最佳方法10.3%的平均绝对误差(MAE)和9.1%的均方根误差(RMSE),以达到NuScenes基准测试的最新技术

2 Related Work

2.1 Camera-lidar depth estimation
  • 利用RGB图像作为指导来密集化稀疏的激光雷达点云
  • 大多工作致力于解决稀疏性问题,如
    • 设计网络块
    • 估计激光雷达采样位置
    • 使用金字塔网路
    • 使用独立的图像和深度网络
    • 提出上采样层
    • 使用置信度图
    • 使用表面法向
  • 激光雷达昂贵、能耗高,在实际应用中受限
2.2 Single image depth
  • 在没有强大先验条件的情况下难以大规模应用
  • 毫米波雷达便宜且常见,将预测与公制尺度结合
2.3 Camera-radar depth estimation
  • 使用稀疏的毫米波雷达点云和相机图像
  • 与基于相机和激光雷达的深度估计不同,具有新的挑战
    • 因为雷达点云的稀疏性和噪声
  • 已有工作
    • [30]学习从雷达数据到图像像素的映射,使用多个图像和扫描得到更密集的点
    • [26]提出两阶段编码器解码器架构减少噪声,也使用未来帧
    • [28]创建高度扩展的雷达表示,与相机图像融合生成密集深度
    • [13]将稀疏点云作为训练期间的弱监督信号融合,推理时用作额外输入增强稳健性
  • 这些工作要么 忽略雷达点的噪声和错误 ,要么 使用多个图像和扫描得到更密集的点
  • 与它们不同,本文只需要 单张图像和雷达扫描产生密集深度

3 mmWave PCD Geneartion

picture 2

  • 镜面反射
    • 导致稀疏性
  • 天线阵列
    • 导致角度,特别是俯仰角度分辨能力差
  • 已有工作
    • [13,26,28,29]没有考虑到上述问题,将不正确的投影视为原貌,或执行后处理操作如沿y轴扩展每个点
  • 本文
    • 学习将雷达点映射到场景中的可能表面,以恢复更密集的雷达点云

4 Proposed Approach

4.1 Overview & Formulation
  • 目标
    • 从单张RGB图像 和 点云 恢复 3D场景
  • 分为两个子问题
    • (i) 在嘈杂的雷达点云中找到每个点与其在图像平面上的可能投影之间的对应关系,以产生半密集的雷达深度图;

      🚩 RadarNet :将RGB图像和雷达点作为输入,输出置信度图,表示点映射到图像中的可能表面。对K个点,输出K个置信度图,构造半密集的雷达深度图

      ✅ ROIAlign进行高效推理

    • (ii) 融合半密集的雷达图和相机图像以输出密集深度图

      🚩 FusionNet :融合图像,雷达深度图和每个对应关系的置信度,输出密集深度图

      ✅ 门控融合:学习一组权重调节传递到解码器的深度信息量,学习雷达深度图和置信度分数的错误模式

picture 4

4.2 RadarNet
  • 数据集:RGB图像,雷达点云,真实的激光雷达深度图
  • 两个编码器:标准ResNet18编码图像;5层全连接MLP编码雷达点
  • 将点云的潜在表示与图像潜在表示融合,解码为响应图(置信度分数)
  • 作为二分类问题: 高响应表示给定点的可能表面
  • ROI对应给定点的真实位置,构造标签,最小化二分类交叉熵损失
  • 训练RadarNet将雷达点映射到图像空间中的区域,支持不同时刻的雷达返回,产生比雷达点云密集的半密集深度图

ℓ B C E =

这篇关于多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/384390

相关文章

基于Qt实现系统主题感知功能

《基于Qt实现系统主题感知功能》在现代桌面应用程序开发中,系统主题感知是一项重要的功能,它使得应用程序能够根据用户的系统主题设置(如深色模式或浅色模式)自动调整其外观,Qt作为一个跨平台的C++图形用... 目录【正文开始】一、使用效果二、系统主题感知助手类(SystemThemeHelper)三、实现细节

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个