深度强化学习大牛、UC伯克利教授Pieter Abbeel获2021 ACM计算奖

本文主要是介绍深度强化学习大牛、UC伯克利教授Pieter Abbeel获2021 ACM计算奖,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:机器之心

AI 大牛吴恩达的学生、机器人学习专家、UC 伯克利教授 Pieter Abbeel 摘得了最新一届 ACM 计算奖的荣誉。

ACM 官方宣布将 2021 ACM 计算奖(ACM Prize in Computing)授予加州大学伯克利分校教授 Pieter Abbeel,以表彰他在机器人学习方面的贡献,包括从演示中学习和用于机器人控制的深度强化学习。

a34ab5ae8fb202237c07ccb99e08f993.png

在获奖公告中,ACM 提到:「Abbeel 率先教会机器人从人类演示中学习(学徒学习)和通过自己的反复试错学习(强化学习),这为下一代机器人技术奠定了基础。」

ACM 计算奖设立于 2007 年,由 IT 巨头 Infosys 赞助,奖金为 25 万美元,旨在表彰在职业生涯早期到中期在计算领域做出基本创新贡献的研究者,这些贡献通过其深度和广泛的影响体现了该学科的最高成就。

过往获奖者包括谷歌 AI 负责人 Jeff Dean、AlphaGo 之父 David Silver、量子计算先驱 Scott Aaronson 等著名计算机科学家。

Abbeel 将于今年 6 月 11 日在旧金山举行的 ACM 年度颁奖晚宴上正式获颁 ACM 计算奖。

伯克利大牛 Pieter Abbeel 的研究贡献

3bbda3659c299f96680bc9b9e33ee073.png

Pieter Abbeel 现为加州大学伯克利分校计算机科学与电气工程教授,也是人工智能机器人公司 Covariant 的联合创始人、总裁兼首席科学家。Abbeel 在比利时鲁汶大学获得电气工程学士学位,并在斯坦福大学获得计算机科学硕士和博士学位(师从吴恩达)。

f9588f2b7afda39e15bd895bc6720b10.png

Abbeel 曾获得多项荣誉,包括美国科学家及工程师总统早期职业奖、美国国家科学基金会早期职业发展计划奖和 Diane McEntyre 卓越教学奖。此外,Abbeel 还被 MIT Technology Review 评为 35 岁以下杰出青年创新者,并获得了机器人与自动化领域的 Dick Volz 最佳美国博士论文奖。同时,Abbeel 也是 IEEE Fellow。

在职业生涯的早期,Abbeel 开发了新的学习技术,以显著改善机器人操作。随着该领域的成熟,研究人员能够对机器人进行编程,以使其感知、操纵木块或勺子等刚性物体。然而,通过编程让机器人操纵可变形物体(例如布)相对来说较为困难,因为软性材料在被触摸时的移动方式是不可预测的。Abbeel 引入了增强机器人视觉感知、基于物理的跟踪、控制和从演示中学习的新方法。通过结合这些新方法,Abbeel 开发了一种能够折叠毛巾和衬衫等衣服的机器人,这在当时被认为是一个重要的里程碑。

cb992947dc1d0ff3e3508f56ec9e9b32.gif

Abbeel 的贡献还包括开发能进行手术缝合、物体检测以及在不确定环境下规划轨迹的机器人。最近,他开创了「少样本‍模仿学习」,即先让机器人接受大量相关任务演示的预训练,然后使其仅通过一次演示就学会执行一项任务。

Abbeel 做出重要贡献的另一个方向是机器人深度强化学习。强化学习是机器学习的一个领域,在该领域中,智能体在奖励的驱动下不断前进(比如赢得一场比赛)。虽然早期的强化学习程序非常有效,但它们只能执行简单的任务。将强化学习与深度神经网络相结合的创新之举催生了深度强化学习这一新领域。与仅使用强化学习开发的程序相比,它可以解决复杂得多的问题。

Abbeel 在该领域的突破性贡献是开发了一种名为「信赖域策略优化(Trust Region Policy Optimization)」的深度强化学习方法。这种方法稳定了强化学习过程,使机器人能够学习一系列模拟的控制技能。通过分享研究结果、发布视频教程以及发布开源代码,Abbeel 帮助建立了一个研究社区,进一步推动了用于机器人的深度学习研究,可以让机器人执行更复杂的任务。

Abbeel 还做出了其他几项开创性的贡献,包括:

  • generalized advantage estimation,这使得第一个 3D 机器人运动学习成为可能;

  • soft-actor critic,这是迄今为止最流行的深度强化学习算法之一;

  • domain randomization,它展示了在适当随机化的模拟器中进行的学习如何能够很好地泛化到现实世界;

  • hindsight experience replay,这对奖励稀疏 / 目标导向的环境中的深度强化学习很有帮助。

a604ef0ae979b27f787208dd8758fa0a.png

ACM 主席 Gabriele Kotsis 表示:「教机器人学习可以推动许多行业的重大进步,包括手术、制造、航运、自动驾驶等。Pieter Abbeel 是新一代研究人员中公认的引领者,他们正在利用最新的机器学习技术彻底改变这一领域。Abbeel 做出了跨越式的研究贡献,同时还慷慨地分享了他的知识,建立了一个同行社区,致力于将机器人提升到令人兴奋的新能力水平。他的工作体现了 ACM 计算奖旨在表彰具有『深度、影响力和广泛影响』的杰出工作的初衷。」

Infosys 首席执行官 Salil Parekh 表示:「很荣幸能表彰 Pieter Abbeel 获得 2021 年 ACM 计算奖,随着机器人与人工智能相结合的创新方式不断涌现,机器人领域有望取得更大的进步,我们相信像 Abbeel 这样的研究人员将有助于该领域取得下一个重大进展。」

获奖后,Pieter Abbeel 在社交媒体上表示:「我感到无比荣幸。非常感谢所有让这一切成为可能的合作者,感谢我的学生、同事、硕士及博士阶段的导师。」

b313aff34a89d27eaa764357be7a912d.png

欢迎大家加入DLer-CVPR2022论文分享交流群!

大家好,这是CVPR2022论文分享群里,群里会第一时间发布CVPR2022的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

c4fb6ff96240684ff71a73a0af2d703d.png

👆 长按识别,邀请您进群!

这篇关于深度强化学习大牛、UC伯克利教授Pieter Abbeel获2021 ACM计算奖的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/156349

相关文章

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR

Python与DeepSeek的深度融合实战

《Python与DeepSeek的深度融合实战》Python作为最受欢迎的编程语言之一,以其简洁易读的语法、丰富的库和广泛的应用场景,成为了无数开发者的首选,而DeepSeek,作为人工智能领域的新星... 目录一、python与DeepSeek的结合优势二、模型训练1. 数据准备2. 模型架构与参数设置3

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动