前OpenAI科学家辞职创立智能机器人公司,我们和他们的CEO聊了聊

2023-11-03 20:30

本文主要是介绍前OpenAI科学家辞职创立智能机器人公司,我们和他们的CEO聊了聊,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

撰文 | 彭君韬(Tony)

编辑 | 刘燕


2016 年年初,加州伯克利大学的教授、机器人学习大牛 Pieter Abbeel,带着他的两个博士 Peter Chen和 Rocky Duan,加入了位于旧金山的非营利性人工智能(A.I.)研究机构 OpenAI。在过去的一年半的时间,他们三人参与并贡献了整个机构 40% 的论文发表,在强化学习和生成模型上做出了很多成绩。




Chen 在回忆这段光景的时候感叹道,「最大的收获是 ambition(志向),」他顿了顿,又改了口,「确切地说是 perspective(视野)。相比于学术界,OpenAI 很不一样,这里的研究拓展了你的视线,让你在想能不能跳出一个细小的问题,去想一个更长期的目标。」


在这一年半的时间里,Chen 慢慢明确了自己想达到的目标,以及实现这个目标的路径。今年 9 月,Abbeel、Chen 和 Duan 同时离开了 OpenAI,并拉上了前微软研究员 Tianhao Zhang ,成立了一家致力于研究智能机器人(学徒)的初创公司 Embodied Intelligence。


在外人眼里,机器人或许只是一堆拼装在一起的、能重复简单动作的硬件,但 Embodied Intelligence 希望赋予他们快速学习的能力,可以通过算法学习完成任务,并将自动化技术应用到世界范围内的工厂、仓库、甚至是家庭中。「传统的机器人编程非常耗费时间,只有专业人员才能进行。」Embodied Intelligence 总裁、首席科学家 Abbeel 说,「我们提供的智能模块可以接入任何市面上的机器人,让它们可以自然地学习新的技能,无需编写晦涩难懂的代码。」




创立之初,Embodied Intelligence 的办公地还在伯克利大学的机器人实验室,Chen 的博士生岁月几乎也都是在这里度过。除了其他研究员外,实验室还有一个叫做 Bred/Brett 的机器人。伯克利的学生们没少在它身上下功夫:教它捡东西、拼装、实物操作。之后,成立仅两个月的 Embodied Intelligence 就获得了硅谷风险投资机构 Amplify Partners 和其他投资方的共 700 万美元的种子轮融资,其中包括一家来自中国的风投峰瑞资本(FreeS)。


三周前,公司从伯克利搬到了附近埃默里维尔市(Emeryville)。机器之心在他们的新办公室里,和公司CEO Peter Chen 聊了聊从出走 OpenAI 到开始创办运营一家公司的历程。看得出 Chen 很忙,采访的时候也很难无法完全放下手上的活儿,需要时不时地翻看一下笔记本上的代码和手机上的消息。不过他直言,从伯克利博士生,到 OpenAI 研究员,再到如今公司的 CEO,他并没有觉得很强烈的角色变换。「我们依然在做一个研究项目,只不过要实现落地的话,就需要建立一个公司。」


传统机器人的硬伤


工业机器人的痛点,是每一个想要做智能机器人创业公司的机会。


目前,工业机器人的硬件水准是无可挑剔的。市面上大部分机器人都可以达到百分之一毫米的精确度,而且一个三五十万的机械臂的耐久度至少是五至十年的时间。机器人可以完成批量地、重复的动作、在生产线上进行装配,满足刚性制造所需的大批量生产。


但机器人的每一个动作都需要工程师在背后进行精细的编程,从拿起一个元件,到装配到另一个元件上,编程的过程都需要考量诸如距离、角度这样的条件。很多在人类看来非常简单的动作,对机器人来说却是很大的挑战。


比如,将两个齿轮合在一起,人类只要拧一拧调整一下角度就可以轻松地将齿轮卡住,但机器人不这么觉得。如果用传统机械的方法,工程师需要准确的监测到两个齿轮之间的角度差异,然后来回进行转动让它完美地契合在一起,这立刻就变得变成一个很困难的工程问题。


「任何需要用眼来看,然后用手来去进行适应性的操作,都是对传统机器人的挑战,」Chen 说。越来越多年轻人不愿意在工厂或者仓库里做这些枯燥的、重复的动作,但传统机器人又无法适应柔性的、可以随时变化操作的工业制造。Chen 想要在短时间内解决的就是,让机器人既可以组装齿轮,下一秒也可以去装备其他的元件或者完成其他的动作。


智能机器人的解决方法可以有很多。今年受机器人公司关注的有谷歌提出的自我监督模仿(Self-Supervised Imitation)。通过一种叫做时间对比网络(Time-Contrastive Networks)的神经网络,机器人能够自我学习视频里的动作,比如倒水,或者站立。


Chen 则将希望寄托于深度强化学习。这种基于环境而行动、从而获得最大化利益的机器学习方法,在过去的两年时间里成功地让电脑学会了下围棋和打游戏。


2015 年,Chen 过去所在的伯克利机器人实验室,已经通过深度强化学习让机器人获得了一种类似于视觉肌肉记忆 的能力(Visual Motor Skills)。人类在做很多动作时不会认真经过大脑思考。比如在人喝水前,并不会在脑海里提前画上一个从拿起杯子——转动杯子角度——将水倒入嘴里的草图,而是根据条件反射直接拿起杯子喝水。


这个过程并不复杂:深度神经网络就像人类的大脑一样,它能够处理视觉数据,让机器拥有模拟人类条件反射的能力;模拟之后,接下来就是训练机器的方法。利用深度强化学习,机器人能通过不断地试错和奖励机制找到学习这个动作的「窍门」。这种学习动作的过程不需要手把手的编程。


但是,两年前的方法最终只停留在理论阶段。机器人的深度强化学习需要一个引导设置,而不是漫无目的地试错,这就需要拥有强化学习知识的人才(主力是博士生)完成前期的编程和调试。一个大学里的实验室可以让几个博士生没日没夜的埋头苦干,但这显然不适用于工业界。


因此,直到两年后,Chen 的团队找到了能够落地的解决方案——模拟学习(Imitation Learning)。


模拟学习搭配强化学习


消费级 VR 设备的出现,为很多 AI 公司提供了意外惊喜。Embodied Intelligence 使用了 VR 设备实现了机器人模拟学习的能力。据 Chen 介绍,模拟学习的主要研究出自另一位联合创始人 Tianhao Zhang 之手。




任何人带上 VR 设备,拿上遥控器,就相当于人在实时遥控一个机器人。机器人只需实时追踪 VR 设备的手的运动轨迹,VR 中的示范数据则将用来训练深度神经网络。在这个过程中,机器人持续地学习,直到它表示:「我学会了。现在我可以自己接手了。」整个过程只需要 30 分钟。按照 Chen 的话说,即使是这 30 分钟再乘上 100 倍,也比过去训练机器人动作的成本要小。


这种方法具有很好的迁移性或者说适用性。即使是不同的动作,它背后的代码是一模一样的,包括 VR 的代码、收集示范动作的代码、训练的代码,以及神经网络学习的代码,都是一样的。唯一的不同只是示范的动作而已。


目前,Embodied Intelligence 的机器人学过时间最长的动作是将近一分钟,学习动作并没有明确的规定,大部分人类凭条件反射就能完成的动作,机器人都可以学习。但还不知道机器人是否能学习一些非常规的动作,比如上周波士顿动力机器人 Atlas 的后空翻。


完成模拟学习后,机器人依然需要强化学习的介入,让它能够继续进行自我学习。人类的动作有些时候并非最有效的,比如在走路时沿着一个弧线,这可能不是最优的结果,或者人在走路的时候会有一些颤抖也是很有可能的,但对一个机器人来说,通过强化学习可以让动作变得更加高效。


「近段时间 AI 领域的突破性进展已让机器人学会行走,通过反复试错学习操纵物体,以及从 VR 收集的示范数据来学习新的技能。但是,这些进展都局限于仿真或实验室环境。」Amplify Partners 合伙人Sunil Dhaliwal 说,「Embodied Intelligence 团队推动了很多这些进展,而现在他们将把这些最前沿的人工智能和机器人领域的进展引进具体的应用场景中。」


据 Chen 透露,这套基于模拟学习和强化学习的机器人应用将在明年投身工业界,通过这套流程,机器人可以轻松地学会广泛的技能,尤其在那些传统解决方案望而却步的应用领域,比如操纵可变形的物体——电线、丝料、布料、服装、液体包装、食品等,在不规则、杂乱环境中分拣、整理物品,复杂的拼装任务。而随着材料不规整程度的增加,以及个性化订单的增长,传统硬编码的方式尤其展现出其局限性。


只不过,Embodied Intelligence 的蓝图并不尽于此。


五到十年,实现元学习


模拟学习+强化学习是一个 Embodied Intelligence 能够短期内提供的智能解决方案,元学习(Meta Learning)才是这家公司放眼未来五年到十年的核心。「机器人和人力的关键区别是『教』的成本,我们想把机器人变得和人一样可教。现阶段,我们只是在减少教的时间。」


什么是元学习?简答来说,就是让机器人学会一个学习策略。过去的深度学习是通过输入大量的数据得到一个结果,而元学习则是从少量数据中获得学习这类任务的方法。换言之,这也是一种体现在机器人上的通用人工智能(Artificial General Intelligence),也是为什么Chen会将公司取名为Embodied(具现) Intelligence(智能)。


Chen 在元学习上已经有了一些研究上的成果。今年,Chen 联合他的导师在 arXiv 上发表了两篇关于元学习的论文。Meta Learning Shared Hierarchies 研究了一种用于学习层次结构化策略的元学习方法,通过使用共享基元提高未见任务的样本效率;另一篇 Meta-Learning with Temporal Convolutions 则提出了一类基于时间卷积的简单和通用的元学习器体系结构,这个结构不限领域,而且没有使用特定的策略或算法进行编码。


在 Chen 设想的蓝图里,Embodied Intelligence 最终实现的智能机器人将同时拥有元学习和强化学习的能力。「强化学习在单一任务上表现的很好,元学习是让机器人掌握快速学习,这两者在未来是可以互补的。」


身在硅谷的 Chen 面临的压力不小,除了像谷歌这样的科技巨头发力智能机器人外,不少初创公司也有这样的野心,在距离埃默里维尔市开车 20 分钟的联合城市(Union City),同样一家机器人公司Vicarious.ai 在为实现具有人类智能的机器人夜以继日。该公司的 CTO Dileep George 曾告诉机器之心,他们选择了一条完全不同于深度学习和强化学习的路径——通过模拟人类的视觉皮质,结合生成模型,让机器能够模拟物体的结构,从而获得对物体本身的理解能力。而他们预期在 2040 年前后实现。


没有人能确定哪一条路能通往人工智能的终极圣杯。但从现在来看,带着伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了机器人科研的最前沿。


这篇关于前OpenAI科学家辞职创立智能机器人公司,我们和他们的CEO聊了聊的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/340696

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

创业者该如何设计公司的股权架构

本文来自七八点联合IT橘子和车库咖啡的一系列关于设计公司股权结构的讲座。 主讲人何德文: 在公司发展的不同阶段,创业者都会面临公司股权架构设计问题: 1.合伙人合伙创业第一天,就会面临股权架构设计问题(合伙人股权设计); 2.公司早期要引入天使资金,会面临股权架构设计问题(天使融资); 3.公司有三五十号人,要激励中层管理与重要技术人员和公司长期走下去,会面临股权架构设计问题(员工股权激

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是: