Figure 01掀起了具身智能的崭新篇章

2024-03-17 09:04

本文主要是介绍Figure 01掀起了具身智能的崭新篇章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在人工智能的发展历程中,OpenAI始终扮演着创新的先锋角色。最近,他们与Figure公司的合作成果尤为引人注目,这一合作将多模态大模型技术成功应用于Figure 01机器人的开发中,为人类与机器的互动开辟了全新的时代。该机器人不仅能够与人类进行深入的对话交流,而且在最近的演示中,其展现出的互动能力令人印象深刻。

Figure公司在获得了包括OpenAI在内的多位重量级投资者的支持后,正式发布了Figure 01机器人。这一举措不仅标志着人工智能在具身智能领域的一大步,也展示了其在执行复杂任务方面的能力。Figure 01能够完成如递苹果、收拾塑料袋、归置杯盘等一系列复杂任务,这些任务的完成依赖于多模态大模型和由视觉驱动的transformer结构的policy network。

特别值得一提的是,Figure 01的policy network能够以高达200Hz的控制频率输出动作指令,这一成就在业界是极为罕见的。相比之下,谷歌的机器人大模型在控制频率上的最优结果仅为3Hz。如果Figure 01的policy network能够实现从图像输入端到端直接输出到动作,且达到200Hz的控制频率,这无疑是一项令人惊叹的技术突破。

Figure 01的核心技术在于其端到端的神经网络框架。机器人通过摄像头和麦克风捕获环境中的图像和声音,这些数据随后被输入到OpenAI的多模态模型中。该模型不仅处理对话记录,还能结合过去的图像数据和对话数据,生成语言响应和执行策略。尤其值得关注的是,Figure 01采用了端到端的视觉到action的transformer网络来执行策略,这种策略能够直接将像素信息映射为动作指令,并以极高的频率生成这些指令,从而实现精准且迅速的响应。

在这里插入图片描述

一些个人的推测:

1)理解和规划部分大概率用的是openai 内部的GPT4V或更强的模型

2)按照他公布的policy network的控制频率来看,不太像是一个RT系列的那种通用大模型,RT系列随着不断地scale up能力不断提升,而推理速度和控制频率随着模型变大牺牲了很多,其最快的控制频率也只做到3HZ,因此从这方面推测,Figure01的policy network大概率是一些被封装成API可被上层多模态大模型调用的小的端到端的策略网络,能够实现一小类任务和在一类物体之间的泛化,并由他们组建成为了一个庞大的技能库来供上层的多模态大模型调用。这块最典型的例子是谷歌出品的SayCan[1], 其构建了囊括上百个技能的技能库(但都比较简单以桌面的pick and place为主)通过大语言模型的决策和技能库的适配度选取当前步需要调用的技能。
在这里插入图片描述

目前国内团队也在搭建类似的多模态细粒度决策框架,典型的例子是RoboCodeX[2],其由多模态大模型做code层级的细粒度调度,根据任务需要和视觉观测以具体问题具体分析的方式调用各种机器人专用模型来完成工作(工具包括抓取模型anygrasp、关节体预测模型GAMMA等)。在这类框架下,不断收集高质量的机器人数据,利用模仿学习得到能够解决复杂任务的netwotk并补充进技能库之中是关键。上海人工智能实验室最近还推出了基于ROS系统支持多模态大模型和大语言模型做代码生成的机器人评测平台RoboScript[3].

Framework of RoboCodeX
在这里插入图片描述

Framework of RoboScript
在这里插入图片描述

3)Figure01应该建立了庞大的数据飞轮,包括遥操作体系下的人类辅助数据收集和仿真平台上的自动化数据收集,利用数据飞轮收集了海量的专家示范数据,并基于端到端模仿学习的框架封装成了可被上层多模态大模型调用的API的形式。真机数据收集的廉价化和仿真数据收集的自动化是实现这一路径的关键。斯坦福有两篇代表性的工作:

a) Universal Manipulation Interface[4]:

这是一个由斯坦福大学、哥伦比亚大学和丰田研究所的研究者开发的框架,用于数据收集和策略学习。
UMI使用手持夹持器,可以简单快速且低成本地收集训练机器人所需的数据。
它考虑了机器人观察环境的延迟、拿到环境数据后做推理的延迟,以及推理完成到做出动作的延迟。
UMI使用鱼眼镜头感知环境,并通过改造SLAM与GoPro内置的IMU传感器结合使用,提供立体观察。
它使用扩散策略进行动作预测,这是一种将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。
UMI的硬件成本相对较低,使得数据收集更加经济高效。
项目地址:UMI GitHub(链接:https://github.com/real-stanford/universal_manipulation_interface)

在这里插入图片描述

b) Scaling Up and Distilling Down[5]: Language-Guided Robot Skill Acquisition(利用大语言模型辅助自动化利用仿真环境收集专家数据)

为了扩展数据生成,使用大型语言模型(LLM)指导高级规划,并通过基于采样的机器人规划器生成丰富和多样的操作轨迹。
为了强化数据收集过程,语言模型还推断出每个任务的成功条件代码片段,这使得数据收集过程能够检测失败并重试,同时自动标记轨迹为成功或失败。
为了将数据提炼成实际部署的政策,扩展了单任务行为克隆方法到多任务设置中,并加入语言条件。

在这里插入图片描述

4)Figure01的机械臂和灵巧手的动作高度丝滑,这样的表现背后应该是一系列先进机器人控制技术的集成和应用。要达到这样的丝滑效果应该包括速度控制器和力矩控制技术的结合(汇总自@东林钟声大佬的分析),以及对重力和摩擦力的精确计算和补偿。在机械臂的控制系统中,速度控制器扮演着至关重要的角色。它能够确保机械臂在执行任务时,无论是加速还是减速,都能保持平滑过渡,避免因速度突变而产生的振动或冲击,这对于提高作业效率和保护机械结构都至关重要。力矩控制技术则是确保机械臂和灵巧手能够精确施加力量的关键。在灵巧手的关节内部,通常会配置力矩传感器,这些传感器能够实时监测和反馈手部施加的力量。精确地读取和响应力量变化,从而实现对灵巧手动作的精确控制。这种精确的力量控制,使得机械臂不仅能够抓取和操作各种形状和重量的物体,还能够模拟人类手部的细腻动作,如轻柔地抚摸或者稳定地握持。为了实现更高级别的精确控制,系统还需要能够计算和补偿各种外部和内部因素的影响。重力和摩擦力是影响机械臂和灵巧手动作的两个主要因素。通过先进的算法,系统可以预测和计算这些力的作用,并在控制过程中进行相应的补偿。这样,即使在复杂的操作环境中,机械臂和灵巧手也能够保持稳定和精确的性能。为了实现更高级别的精确控制,系统还需要能够计算和补偿各种外部和内部因素的影响。重力和摩擦力是影响机械臂和灵巧手动作的两个主要因素。通过先进的算法,系统可以预测和计算这些力的作用,并在控制过程中进行相应的补偿。这样,即使在复杂的操作环境中,机械臂和灵巧手也能够保持稳定和精确的性能。

这篇关于Figure 01掀起了具身智能的崭新篇章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/818482

相关文章

可视化实训复习篇章

前言: 今天,我们来学习seaborn库可视化,当然,这个建立在Matplotlib的基础上,话不多说,进入今天的正题吧!当然,这个是《python数据分析与应用》书中,大家有需求的可以参考这本书。 知识点: Matplotlib中有两套接口分别是pyplot和pyylab,即绘图时候主要导入的是Matplotlib库下的两个子模块(两个py文件)matplotlib.pyplot和matp

C++入门01

1、.h和.cpp 源文件 (.cpp)源文件是C++程序的实际实现代码文件,其中包含了具体的函数和类的定义、实现以及其他相关的代码。主要特点如下:实现代码: 源文件中包含了函数、类的具体实现代码,用于实现程序的功能。编译单元: 源文件通常是一个编译单元,即单独编译的基本单位。每个源文件都会经过编译器的处理,生成对应的目标文件。包含头文件: 源文件可以通过#include指令引入头文件,以使

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

基于 Java 实现的智能客服聊天工具模拟场景

服务端代码 import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintWriter;import java.net.ServerSocket;import java.net.Socket;public class Serv

江西电信联合实在智能举办RPA数字员工培训班,培养“人工智能+”电信人才

近日,江西电信与实在智能合作的2024年数字员工开发应用培训班圆满闭幕。包括省公司及11个分公司的核心业务部门,超过40名学员积极报名参与此次培训,江西电信企业信息化部门总监徐建军出席活动并致辞,风控支撑室主任黄剑主持此次培训活动。 在培训会开幕仪式上,徐建军强调,科创是电信企业发展的核心动力,学习RPA技术是实现数字化转型的关键,他阐述了RPA在提高效率、降低成本和优化资源方面的价值,并鼓励学

407串口01发送

实验一: 工程。 链接:https://pan.baidu.com/s/1g8DV4yZWOix0BbcZ08LYDQ?pwd=2176 提取码:2176 串口1的使用。发送功能。 单片机发送信息到电脑。 通过串口进行通信。 首先单片机这边。 单片机这边,需要对单片机的串口模块进行使能初始化,设置串口的格式。 单片机和电脑的串口收发格式要配置一致。不然A和B肯定通信不成功,鸡和鸭讲,

深度神经网络:解锁智能的密钥

深度神经网络:解锁智能的密钥 在人工智能的浩瀚星空中,深度神经网络(Deep Neural Networks, DNNs)无疑是最耀眼的那颗星。它以其强大的学习能力、高度的适应性和广泛的应用场景,成为了我们解锁智能世界的一把密钥。本文将带你走进深度神经网络的神秘世界,探讨其原理、应用以及实用操作技巧。 一、深度神经网络概述 深度神经网络,顾名思义,是一种具有多个隐藏层的神经网络。与传统的神经

大学生自救数据结构与算法(py实现)——01递归

目录 目录 递归 基本概念 工作原理 基本要素 优点 缺点 实现技巧 实例解析:计算阶乘 斐波那契数列 高效的斐波那契数列 python中的最大递归深度 二分查找 基本原理 性能分析 优化与变体 线性递归  元素序列的递归求和 二路递归 二路递归的基本概念 典型应用 工作原理 多重递归  示例:计算卡特兰数(Catalan Number) 尾递

【智能优化算法改进策略之局部搜索算子(五)—自适应Rosenbrock坐标轮换法】

1、原理介绍 作为一种有效的直接搜索技术,Rosenbrock坐标轮换法[1,2]是根据Rosenbrock著名的“香蕉函数”的特点量身定制的,该函数的最小值位于曲线狭窄的山谷中。此外,该方法是一种典型的基于自适应搜索方向集的无导数局部搜索技术。此法于1960年由Rosenbrock提出,它与Hooke-Jeeves模式搜索法有些类似,但比模式搜索更为有效。每次迭代运算分为两部分[3]: 1)

Android自定义view学习笔记01

Android自定义view学习笔记01 昨天看博客的时候看到鸿洋老师的博客里面有关于自定义view的学习教程。一直深感所掌握的东西太少太杂,按照他的Android 自定义View (一)所讲内容,代码实践。根据实际情况稍作修改,并且补充一些在代码过程中知识点,做此笔记。 相关代码 //CustomView01.javapackage mmrx.com.myuserdefinedvi