GEDepth:Ground Embedding for Monocular Depth Estimation

2024-02-02 14:44

本文主要是介绍GEDepth:Ground Embedding for Monocular Depth Estimation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考代码:gedepth

出发点与动机
相机的外参告诉了相机在世界坐标系下的位置信息,那么可以用这个外参构建一个地面基础深度作为先验,后续只需要在这个地面基础深度先验基础上添加offset就可以得到结果深度,这样可以极大简化深度估计网络学习的难度,自然深度估计的性能就上去了。先不说这个深度估计的实际效果如何,但是这个将复杂的问题简单化的思路是可以借鉴的。但是这个鲁棒性如何就需要打问号了,BEV感知中外参的变化带来的问题依然很头疼。

方法设计
文章的核心内容部分在左上部分,也就是如何去构建地面基础深度,文中给出了两种地面深度生成的方法:内外参映射、地面坡度加内外参,自然第二种的精度更高。这个基础深度再同你过一个学习到的加权参数 M a t t e n M_{atten} Matten去调和基础深度和网络本身预测的深度
在这里插入图片描述

单纯由内外参估计地面深度
这个借助内外参可以在平直路面实现基础地面深度估计,什么路面坡度、障碍物什么的都不考虑,单纯计算地面的深度。其计算出来的效果如下
在这里插入图片描述

借助地面坡度预测细化地面基础深度
单纯依靠内外参得到的地面基础深度是相当粗糙的,完全不能用,那么可以借用下图定义的路面坡度 α \alpha α来细化路面的实际情况,这个坡度的计算自然也需要预先通过真值计算得到,相当于是对真值在不同的维度做了监督
在这里插入图片描述

实验结果
KITTI上的性能比较:
在这里插入图片描述

DDAD数据集:
在这里插入图片描述

这篇关于GEDepth:Ground Embedding for Monocular Depth Estimation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/671046

相关文章

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

AI大模型企业应用实战(14)-langchain的Embedding

1 安装依赖 ! pip install --upgrade langchain! pip install --upgrade openai==0.27.8! pip install -U langchain-openai ! pip show openai! pip show langchain! pip show langchain-openai 2 Embed_document

Depth Anything V2:抖音开源高性能任何单目图像深度估计V2版本,并开放具有精确注释和多样化场景的多功能评估基准

📜文献卡 题目: Depth Anything V2作者: Lihe Yang; Bingyi Kang; Zilong Huang; Zhen Zhao; Xiaogang Xu; Jiashi Feng; Hengshuang ZhaoDOI: 10.48550/arXiv.2406.09414摘要: This work presents Depth Anything V2. With

Reconstructing Position From Depth

需求: 根据当前像素的Depth计算出其View空间的Position 先说一种惯性思维的方法: 既然知道depth是怎么算出来的, 那么进行逆运算回去不就得到position了? 先说说depth是怎么出来的: Vertex shader: output.position = mul(input.postion, matWorldViewProject); output.depth

Age and gender estimation based on Convolutional Neural Network and TensorFlow

训练数据处理 imdb数据提取 gender: 0 for female and 1 for male, NaN if unknown age: 年龄分为101类,分别为从0到100岁. 将训练数据转换为tfrecords格式,命令为, python convert_to_records_multiCPU.py --imdb --nworks 8 --imdb_db /home/rese

【机器学习300问】126、词嵌入(Word Embedding)是什么意思?

人类的文字,作为一种高度抽象化的符号系统,承载着丰富而复杂的信息。为了让电脑也能像人类一样理解并处理这些文字,科学家们不断探索各种方法,以期将人类的语言转化为计算机能够理解的格式。 一、One-Hot编码的不足         在自然语言处理发展的早期,给文字进行编码是处理文本数据的主要手段。其中,One-Hot编码是一种简单直观的方法,它将每个单词或字符映射为一个独特的二进制

论文阅读笔记——StereoNet: Guided Hierarchical Renement for Real-Time Edge-Aware Depth Prediction

引言: 谷歌实时端到端双目系统深度学习网络 双目匹配可以得到环境中的三维深度信息,进而为机器人,无人车,VR等现实场景下的应用提供有力信息,在对安全验证比较高的人脸支付领域,三维人脸验证也正在逐渐取代安全性较低的二维人脸验证。近年来,深度学习双目系统匹配已经取得了很不错的进展,很多先进的网络性能已经超过传统方法。然而,深度学习双目系统匹配仍然在实用方面面临很多问题,其中一个问题便是无法做到推断

RAG系列之:深入浅出 Embedding

RAG系列之:深入浅出 Embedding 什么是文本向量化? 文本向量化就是将文本数据转成数字数据,例如:将文本 It was the best of times, it was the worst of times. 转成 [0, 1, 0, 2, 2, 2, 2, 2, 0, 1]。 为什么要进行文本向量化? 因为计算机只能处理数字数据,而不能直接处理文本数据。为了让计算机高效地处理

Embedding 模型的选择和微调

构建一个检索增强生成 (Retrieval-Augmented Generation, RAG) 应用的概念验证过程相对简单,但要将其推广到生产环境中则会面临多方面的挑战。 『RAG 高效应用指南』系列将就如何提高 RAG 系统性能进行深入探讨,提供一系列具体的方法和建议。同时读者也需要记住,提高 RAG 系统性能是一个持续的过程,需要不断地评估、优化和迭代。 在本篇文章中,笔者将讨论以下

论文翻译 BING: Binarized Normed Gradients for Objectness Estimation at 300fps

BING: Binarized Normed Gradients for Objectness Estimation at 300fps Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR, 2014 基于二值化赋范梯度特征的一般对象估计 摘要: 通过训练通用的对象估计方法来产生一组候选对象窗口,能够加速传