港大与TikTok合作研发Depth Anything,从单张图像解锁深度信息,引领MDE新纪元

本文主要是介绍港大与TikTok合作研发Depth Anything,从单张图像解锁深度信息,引领MDE新纪元,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

单目深度估计:挑战与机遇

单目深度估计(MDE)在机器人、自动驾驶、虚拟现实等领域中具有广泛的应用。然而,由于其依赖于精确的深度信息,且面临着数据集构建困难、样本标注成本高等挑战,使得MDE技术的发展步伐受限。

Depth Anything的技术创新

由香港大学和TikTok合作研发的Depth Anything模型在MDE领域是一次重要突破。该模型的创新之处在于有效利用了大规模无标注图像,极大地扩展了数据覆盖范围,使得在各种场景中均展现出卓越的性能。

  • Huggingface模型下载:https://huggingface.co/LiheYoung/depth_anything_vitl14

  • AI快站模型免费加速下载:https://aifasthub.com/models/LiheYoung

  • 数据引擎与自动标注

Depth Anything采用了一种数据引擎来收集和自动标注约6200万张无标注图像。这种策略显著增强了数据集的多样性和覆盖范围,为模型提供了更广泛的视觉信息。

  • 数据增强与辅助监督机制

该模型通过数据增强和辅助监督机制提升了泛化能力。通过使用数据增强工具创建更困难的优化目标,迫使模型获取更鲁棒的表征;同时,开发辅助监督机制强制模型从预训练编码器继承丰富的语义先验知识。

Depth Anything的应用前景

Depth Anything的应用潜力广泛,特别是在单目深度估计的零样本场景中表现突出。模型在AbsRel和δ_1指标上均优于现有的SOTA模型MiDaS,展现了其在众多场景中的强大适应性。

  • 零样本深度估计

Depth Anything在零样本深度估计方面表现优异。在广泛的场景中,尤其是在处理错觉艺术作品时,模型都能准确处理深度信息。

  • 度量深度微调

通过度量深度进行微调后,Depth Anything在NYUv2和KITTI数据集上取得了SOTA成绩,显示了模型在精准度量深度估计方面的强大能力。

结论与展望

Depth Anything的研发不仅是对MDE技术的重大贡献,也为相关领域的研究提供了新的思路。随着技术的进一步完善和应用拓展,Depth Anything有望在多个领域发挥更大的作用,为这些领域提供更加精准、高效的深度信息估计能力。

Depth Anything的成功展示了香港大学和TikTok在人工智能领域的实力,未来该模型将继续在技术创新和应用实践上发挥其重要作用,为AI技术的发展做出更多贡献。

模型下载

Huggingface模型下载

https://huggingface.co/LiheYoung/depth_anything_vitl14

AI快站模型免费加速下载

https://aifasthub.com/models/LiheYoung

这篇关于港大与TikTok合作研发Depth Anything,从单张图像解锁深度信息,引领MDE新纪元的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670403

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五):Blender锥桶建模

前言 本系列教程旨在使用UE5配置一个具备激光雷达+深度摄像机的仿真小车,并使用通过跨平台的方式进行ROS2和UE5仿真的通讯,达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础,Nav2相关的学习教程可以参考本人的其他博客Nav2代价地图实现和原理–Nav2源码解读之CostMap2D(上)-CSDN博客往期教程: 第一期:基于UE5和ROS2的激光雷达+深度RG

韦季李输入法_输入法和鼠标的深度融合

在数字化输入的新纪元,传统键盘输入方式正悄然进化。以往,面对实体键盘,我们常需目光游离于屏幕与键盘之间,以确认指尖下的精准位置。而屏幕键盘虽直观可见,却常因占据屏幕空间,迫使我们在操作与视野间做出妥协,频繁调整布局以兼顾输入与界面浏览。 幸而,韦季李输入法的横空出世,彻底颠覆了这一现状。它不仅对输入界面进行了革命性的重构,更巧妙地将鼠标这一传统外设融入其中,开创了一种前所未有的交互体验。 想象

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

动手学深度学习【数据操作+数据预处理】

import osos.makedirs(os.path.join('.', 'data'), exist_ok=True)data_file = os.path.join('.', 'data', 'house_tiny.csv')with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n') # 列名f.write('NA