多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud

2023-11-10 18:10

文章标签 2023 笔记 cloud 阅读论文 image estimation 模态 point camera 感知 cvpr depth mmwave radar

本文主要是介绍多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4MjgxMjgyMg==&mid=2247486213&idx=1&sn=c9680e0c959a6862bc92fea58029cb4c&chksm=cf51b9fcf82630ea7cc727665bbab30178e7652d74edc046f794111819948c5a21480172a50d#rd

CVPR 2023 | Depth Estimation from Camera Image and mmWave Radar Point Cloud

多模态感知论文阅读笔记：CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud

Abstract

背景
- 提出一种从摄像机图像和稀疏雷达点云推断密集深度图的方法
- Challenge：毫米波雷达点云形成的挑战,如模糊性和噪声 $\Rightarrow$ 无法正确映射到camera images上
  
  ✅ existing works: overlook the above challenge
Proposed approach
- 设计一个网络将每个雷达点映射到图像平面上可能投影的表面
- 与现有工作不同,我们不直接处理原始雷达点云,而是查询每个原始点与图像中可能的像素进行关联——产生半密集的雷达深度图
- 提出带门控融合方案,考虑对应分数的置信度,选择性地结合雷达和相机嵌入来产生密集深度图
Experiments
- 在NuScenes基准测试中测试方法,平均绝对误差提高10.3%,均方根误差提高9.1%
- code: https://github.com/nesl/radar-camera-fusion-depth

1 Introduction

P1: 基于雷达 + 相机的深度估计

理解3D场景结构可以支持空间任务如导航和操作
相机图像提供每个像素的强度,但由于遮挡或光圈问题难以恢复3D结构
测距传感器通常很稀疏,但提供场景中的一些点的3D坐标(即点云)
目标：利用相机图像和雷达点云的互补性恢复密集3D场景(即相机雷达深度估计)
- mmWave radar: 比激光雷达廉价、轻量、功耗低

P2: 挑战

毫米波雷达：highly sparse, noisy, and ambiguous AOA
- $\Rightarrow$ 存在很大误差，无法直接映射到camera images上
已有方法：直接处理原始雷达点云,忽略上述挑战

P3: Proposed method

提出从单个雷达和图像帧估算深度
- 1 首先学习每个雷达点与图像中可能属于的表面之间的一对多映射来学习对应关系
- 2 每个雷达点通过ROI对齐机制与图像中的区域对应——产生半密集的雷达深度图
- 3 雷达深度图中的信息由门控融合机制调制, 学习对应关系中的错误模式并自适应地加权其对图像雷达融合的贡献
- 4 其结果用于增强图像信息,并解码为密集深度图

P4: Contributions

首个使用单个雷达扫描和单个相机图像来学习雷达到相机的对应关系的方法
- 以将任意数量的模糊和嘈杂的雷达点映射到图像中的物体表面
引入映射的置信分数
- 用于融合雷达和图像模态
提出门控融合机制
- 在雷达深度和图像信息之间自适应调节权衡
优秀的实验性能
- 尽管只使用单个图像和雷达帧 $\Rightarrow$
- 超过使用多个图像和雷达帧的最佳方法10.3%的平均绝对误差(MAE)和9.1%的均方根误差(RMSE),以达到NuScenes基准测试的最新技术

2 Related Work

2.1 Camera-lidar depth estimation

利用RGB图像作为指导来密集化稀疏的激光雷达点云
大多工作致力于解决稀疏性问题,如
- 设计网络块
- 估计激光雷达采样位置
- 使用金字塔网路
- 使用独立的图像和深度网络
- 提出上采样层
- 使用置信度图
- 使用表面法向
激光雷达昂贵、能耗高,在实际应用中受限

2.2 Single image depth

在没有强大先验条件的情况下难以大规模应用
毫米波雷达便宜且常见,将预测与公制尺度结合

2.3 Camera-radar depth estimation

使用稀疏的毫米波雷达点云和相机图像
与基于相机和激光雷达的深度估计不同,具有新的挑战
- 因为雷达点云的稀疏性和噪声
已有工作
- [30]学习从雷达数据到图像像素的映射,使用多个图像和扫描得到更密集的点
- [26]提出两阶段编码器解码器架构减少噪声,也使用未来帧
- [28]创建高度扩展的雷达表示,与相机图像融合生成密集深度
- [13]将稀疏点云作为训练期间的弱监督信号融合,推理时用作额外输入增强稳健性
这些工作要么忽略雷达点的噪声和错误 ,要么使用多个图像和扫描得到更密集的点
与它们不同,本文只需要单张图像和雷达扫描产生密集深度

3 mmWave PCD Geneartion

镜面反射
- 导致稀疏性
天线阵列
- 导致角度，特别是俯仰角度分辨能力差
已有工作
- [13,26,28,29]没有考虑到上述问题,将不正确的投影视为原貌,或执行后处理操作如沿y轴扩展每个点
本文
- 学习将雷达点映射到场景中的可能表面,以恢复更密集的雷达点云

4 Proposed Approach

4.1 Overview & Formulation

目标
- 从单张RGB图像和点云恢复 3D场景
分为两个子问题
- (i) 在嘈杂的雷达点云中找到每个点与其在图像平面上的可能投影之间的对应关系,以产生半密集的雷达深度图;
  
  🚩 RadarNet :将RGB图像和雷达点作为输入,输出置信度图,表示点映射到图像中的可能表面。对K个点,输出K个置信度图,构造半密集的雷达深度图
  
  ✅ ROIAlign进行高效推理
- (ii) 融合半密集的雷达图和相机图像以输出密集深度图
  
  🚩 FusionNet :融合图像,雷达深度图和每个对应关系的置信度,输出密集深度图
  
  ✅ 门控融合:学习一组权重调节传递到解码器的深度信息量,学习雷达深度图和置信度分数的错误模式

4.2 RadarNet

数据集:RGB图像,雷达点云,真实的激光雷达深度图
两个编码器:标准ResNet18编码图像;5层全连接MLP编码雷达点
将点云的潜在表示与图像潜在表示融合,解码为响应图(置信度分数)
作为二分类问题: 高响应表示给定点的可能表面
ROI对应给定点的真实位置,构造标签,最小化二分类交叉熵损失
训练RadarNet将雷达点映射到图像空间中的区域,支持不同时刻的雷达返回,产生比雷达点云密集的半密集深度图

这篇关于多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/384390。 23002807@qq.com

相关文章

SpringCloud负载均衡spring-cloud-starter-loadbalancer解读

SpringCloud负载均衡spring-cloud-starter-loadbalancer解读

《SpringCloud负载均衡spring-cloud-starter-loadbalancer解读》：本文主要介绍SpringCloud负载均衡spring-cloud-starter-loa... 目录简述主要特点使用负载均衡算法1. 轮询负载均衡策略（Round Robin）2. 随机负载均衡策略（

阅读更多...

Spring、Spring Boot、Spring Cloud 的区别与联系分析

Spring、Spring Boot、Spring Cloud 的区别与联系分析

《Spring、SpringBoot、SpringCloud的区别与联系分析》Spring、SpringBoot和SpringCloud是Java开发中常用的框架,分别针对企业级应用开发、快速开... 目录1. Spring 框架2. Spring Boot3. Spring Cloud总结1. Sprin

阅读更多...

Spring Cloud之注册中心Nacos的使用详解

Spring Cloud之注册中心Nacos的使用详解

《SpringCloud之注册中心Nacos的使用详解》本文介绍SpringCloudAlibaba中的Nacos组件,对比了Nacos与Eureka的区别,展示了如何在项目中引入SpringClo... 目录Naacos服务注册/服务发现引⼊Spring Cloud Alibaba依赖引入Naco编程s依

阅读更多...

Spring Cloud Hystrix原理与注意事项小结

Spring Cloud Hystrix原理与注意事项小结

《SpringCloudHystrix原理与注意事项小结》本文介绍了Hystrix的基本概念、工作原理以及其在实际开发中的应用方式,通过对Hystrix的深入学习,开发者可以在分布式系统中实现精细... 目录一、Spring Cloud Hystrix概述和设计目标（一）Spring Cloud Hystr

阅读更多...

Spring Boot 3 整合 Spring Cloud Gateway实践过程

Spring Boot 3 整合 Spring Cloud Gateway实践过程

《SpringBoot3整合SpringCloudGateway实践过程》本文介绍了如何使用SpringCloudAlibaba2023.0.0.0版本构建一个微服务网关,包括统一路由、限... 目录引子为什么需要微服务网关实践1.统一路由2.限流防刷3.登录鉴权小结引子当前微服务架构已成为中大型系统的标

阅读更多...

Spring Cloud LoadBalancer 负载均衡详解

Spring Cloud LoadBalancer 负载均衡详解

《SpringCloudLoadBalancer负载均衡详解》本文介绍了如何在SpringCloud中使用SpringCloudLoadBalancer实现客户端负载均衡,并详细讲解了轮询策略和... 目录1. 在 idea 上运行多个服务2. 问题引入3. 负载均衡4. Spring Cloud Load

阅读更多...

Sentinel 断路器在Spring Cloud使用详解

Sentinel 断路器在Spring Cloud使用详解

《Sentinel断路器在SpringCloud使用详解》Sentinel是阿里巴巴开源的一款微服务流量控制组件,主要以流量为切入点,从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、... 目录Sentinel 介绍同类对比Hystrix：Sentinel：微服务雪崩问题问题原因问题解决方案请

阅读更多...

基于Qt实现系统主题感知功能

基于Qt实现系统主题感知功能

《基于Qt实现系统主题感知功能》在现代桌面应用程序开发中,系统主题感知是一项重要的功能,它使得应用程序能够根据用户的系统主题设置（如深色模式或浅色模式）自动调整其外观,Qt作为一个跨平台的C++图形用... 目录【正文开始】一、使用效果二、系统主题感知助手类（SystemThemeHelper）三、实现细节

阅读更多...

JAVA智听未来一站式有声阅读平台听书系统小程序源码

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来，一站式有声阅读平台听书系统 🌟 开篇：遇见未来，从“智听”开始在这个快节奏的时代，你是否渴望在忙碌的间隙，找到一片属于自己的宁静角落？是否梦想着能随时随地，沉浸在知识的海洋，或是故事的奇幻世界里？今天，就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统，它正悄悄改变着我们的阅读方式，让未来触手可及！ 📚 第一站：海量资源，应有尽有走进“智听

阅读更多...

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...