二十多年来第一次!CVPR最佳学生论文授予中国高校学生!

本文主要是介绍二十多年来第一次!CVPR最佳学生论文授予中国高校学生!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

全球人工智能领域最具影响力的大会 CVPR 近日宣布,将 2022 年“最佳学生论文”奖颁给同济大学研二学生陈涵晟等人,这是二十多年来首次有中国高校学生获此殊荣。该论文是陈涵晟在阿里巴巴达摩院实习期间的成果,融合了传统几何推理和深度学习,提出了计算 3D 物体位姿(位置和朝向)的新方法,能从单张图片计算出 3D 物体在真实世界里的位置和朝向,有望成为自动驾驶、机器人等技术发展的理论动力。

CVPR(国际计算机视觉与模式识别会议)是人工智能领域的顶级学术会议,今年共收到 8161 篇论文投稿,最终录取 2064 篇,只评出最佳论文和最佳学生论文各 1 篇。CVPR 的最佳论文和最佳学生论文常被视作 AI 技术风向标,诞生了 ResNet 等一系列标志成果。

CVPR 早在 2001 年就设立最佳学生论文奖,今年首次发给中国高校学生。获奖论文《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 》来自同济大学汽车学院和阿里巴巴达摩院,作者分别是陈涵晟、王丕超、王帆、田炜、熊璐、李昊。

在这里插入图片描述

获奖证书

论文研究的是 3D 视觉领域经典问题,通过单张图像求解 3D 物体在真实世界里的位姿(位置和朝向)。这一技术方向应用前景广阔,是自动驾驶、机器人等行业的基础技术。比如在自动驾驶中,只有先计算出周边车辆的位姿,判断对方究竟是要加速、刹车还是变道,己方车辆才能做出对应操作,计算不准或者过慢都有可能引发事故。

在这里插入图片描述

3D 物体的位姿计算示意

通过单张图像定位 3D 物体极具挑战性。一般有两类解决方法:

  • 一类是基于几何推理,例如 PnP 算法,可解释性好、泛化能力强,但需要提前知道物体的尺寸和形状,具有较大的局限性;
  • 另一类是深度学习方法,可预测 3D 物体的位置坐标和朝向角度,但在小规模数据集上容易过度拟合。

获奖论文提出的新方法 EPro-PnP,创造性地引入了概率分布,将几何推理和深度学习两种方法无缝衔接,形成了一个端到端的易用模型,可以快速估算 3D 物体的位姿。实验证明,新模型通用性强、定位准确,不需要提前知道物体的几何形状;更重要的是非常简洁,效率较高,具有较好的可解释性,有望用于自动驾驶、机器人、无人机、AR等诸多需要通过视觉来估算物体位姿的场景。

在这里插入图片描述

EPro-PnP 方法示意

据了解,论文第一作者陈涵晟本科硕士均就读于同济大学汽车学院,目前研究生二年级在读,导师为熊璐教授,副导师为田炜助理教授,达摩院导师为王丕超博士。他的研究方向是计算机视觉中的 3D 物体位姿估计,研一就已在 CVPR 发表论文。2021 年到阿里达摩院做研究型实习生后,在达摩院日常研究讨论中碰撞出灵感,尝试去构造统一的理论框架。“我原来以为这篇论文可能比较冷门,因为太偏数学,没想到能够获奖。”陈涵晟说。

在这里插入图片描述

达摩院研究型实习生

同济大学研究生陈涵晟论文第一通讯作者、达摩院算法专家王丕超博士表示,这篇论文的特别之处在于用数学的方式解决 AI 底层问题,带来了基础理论上的突破,对 3D 视觉领域的研究和应用都将产生积极影响。“核心创新是转换数学视角,引入概率密度,把不可导的函数变成可导,所以能通过反向传播来训练深度网络,最终实现稳定收敛,提升 3D 物体的定位精度。”

研究型实习生是阿里巴巴在 2017 年创立的科研项目,截至目前,已为全球 200 多所顶尖高校的 1000 多名学生提供了科研岗位。

【论文链接】https://arxiv.org/abs/2203.13254

二十多年来第一次!CVPR最佳学生论文授予中国高校学生!

这篇关于二十多年来第一次!CVPR最佳学生论文授予中国高校学生!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/477980

相关文章

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

如何确定 Go 语言中 HTTP 连接池的最佳参数?

确定 Go 语言中 HTTP 连接池的最佳参数可以通过以下几种方式: 一、分析应用场景和需求 并发请求量: 确定应用程序在特定时间段内可能同时发起的 HTTP 请求数量。如果并发请求量很高,需要设置较大的连接池参数以满足需求。例如,对于一个高并发的 Web 服务,可能同时有数百个请求在处理,此时需要较大的连接池大小。可以通过压力测试工具模拟高并发场景,观察系统在不同并发请求下的性能表现,从而

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super