具身智能(Embodied AI)

2023-10-12 04:12
文章标签 ai 智能 具身 embodied

本文主要是介绍具身智能(Embodied AI),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 前言

      图灵奖得主、上海期智研究院院长姚期智认为,人工智能领域下一个挑战将是实现“具身通用人工智能”,即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士,也在某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。

    模型的好坏取决于数据和算力,以及算法,我们目前的数据源主要来自于各大龙头公司(存储数据较多的),比方说国外的Youtube、Flickr、Facebook,国内的各个大厂,算力取决于(CPU、GPU、TPU),目前在目标检测,自然语言处理领域取得了突出进展。

      但现在有一个很明显的问题,所有的训练数据全部来自于网络,而且这些数据被存储之后是固定的,也是鱼龙混杂的(各种数据夹杂其中,真真假假无法分辨,是否有用无法断定),在这样的数据集中,模型所学到的也是生硬的(甚至不那么合理的)规则,而且学习之后,难以主动和真实世界交互,从而继续完善本身,这样的模型,固然可以应用于真实世界,提升便利性,但从模型本身而言,它不具有进化能力。

      我们所希望的模型,是一个和人类一样,可以在不同的环境下重新学习并适应,以及不断进化的智能体,而不是一具只能执行命令的行尸走肉。

      对于人类来说,从婴儿开始就扎根于真实世界,通过观察、移动、互动和与他人交谈来学习,我们脑海中存储知识都是和环境交互后得到的适合自己的知识,而不是从混乱和随机的经验中学习的(它只能作为一种参考,绝不是主体),这才是人类感知世界的方式!

 

1.具身智能

 

      具身智能(Embodied AI):希望智能体像人类一样在真实世界中通过实践(交互)来学习,它被认为是通往通用人工智能的关键钥匙。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。简单来说,就是让智能体从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机,让实体世界中的机器人/仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务。

      但让一个智能体可以在真实环境下交互,需要集成多种技术。

假设一个场景:让现在最火的机器狗去买菜,那么对于这个机器狗而言,首先它要理解人类的命令(自然语言处理),在买菜的路上,他要能识别路上的障碍(避障)和需要买的菜(目标检测),同时他要明确自己的位置(定位),找到合适的路线(决策),并在路线上准确移动(导航)。而且一般来讲,为了安全性考虑,机器人在路上行动时我们需要同时用视觉和雷达等技术去判断机器和人的安全距离,再加上自然语言处理等技术,它们之间的交互和协作也是重中之重(多模态融合)。

 

2.发展

 

      从上面例子中,我们能发现,首先从第一步,让机器人可以完全理解人类的命令就是一个很困难的事,也因此这个概念尽管早在上世纪就已经被提出,但却一直停滞不前。

      幸运的是,Chatgpt横空出世,以大语言模型为中心的技术突破让人们看到了具身智能(通用智能)的希望,简单归为以下几类。

 

2.1 大模型

 

      目前最典型的是语言大模型Chatgpt,现在各大厂也在加班研究视觉大模型。以语言大模型为例。

      语言大模型相对于传统机器学习在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这让解决机器人的理解力、连续决策力、人机交互能力,有了可能。

      微软研究院发布“ChatGPT for Robotics” 文章中提到,大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人。

      以前,由于传统AI不具备先验知识,理解力和泛化能力不足,机器人就无法像人一样拥有常识,必须要将一个指令由人类工程师分解成一连串简短的程式化程序,然后机器人(机械臂)再一步一步去完成每个动作。这表明机器人并不具备思考能力。

      而大语言模型赋予了机器人思考能力,可以帮助机器人更好理解运用到高级语义知识,自动化地分析自己的任务并拆分成具体的动作。

      例子,让机器人拿一个苹果,对于人类而言,他们会绕开室内的障碍物,但传统方式下,机器人并不具备“遇到障碍物要躲开”这样的常识,经常会做错事,而且不会自动错误,而大模型驱动的具身智能,就可以更好地理解这些知识,自动分解任务。

      总结而言,语言语言大模型让智能体真正有了能够理解人类的能力,并赋予了智能体思考能力,相应智能体就具备了决策能力。而未来的视觉大模型,可以让机器人准确分辨(识别)这个世界的一切。
 

2.2 多模态

 

人类观察和理解这个世界,依赖于眼耳鼻舌身意。同样对于机器人而言它也要有这些能力,对于一个苹果,它要从视觉上看出它的特征(形状,颜色),味觉上品出味道,听觉上听出苹果从高空触地时和其他东西的声音差别,从嗅觉上闻出气味,从苹果的含义上,理解它的象征意义。这样智能体才算真正的了解了这个苹果,而这些感知对于机器人而言,是各自独立的,我们需要借助多模态融合,让机器人全方位理解一个东西,这才具有和真实世界交互的基础。

 

2.3 决策

 

      传统人类将在仿真环境训练训练的能力,运用在现实世界中后,发现无法机器人无法解决,仿真环境未出现的情况,而再次训练又费时费力。

      大模型时代,具身智能模型的训练与测试,与云服务相结合,可以在云上虚拟仿真场景下,进行端到端的实时训练与测试,快速完成端侧迭代与开发,这就大大加速了具身智能体的进化速度。

      具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代,积累对物理世界的深度理解,产生大量交互数据,再通过与真实环境的不断交互积累经验,全面提升在复杂世界的自动移动、复杂任务的泛化能力,展现在具身载体上,就是机器人可以更好地适应环境,更灵活地运用机械“躯干”来进行人机交互。
 

写在最后:尽管人工智能被吹嘘的很美丽,但我们现在所使用的基于人工智能的机器人,是先在在仿真环境中学习,再应用于真是世界,尽管它具有很强的能力,但在真实世界中它并没有重新学习能力,现实世界中新出现的,在仿真环境中没有被训练的状况,它不能解决。但具身智能让机器人有了在真实世界中学习的能力

 

往期文章

 

1.zore-shot,迁移学习和多模态学习-CSDN博客

 

参考文献

 

1.具身智能综述和应用(Embodied AI)_上杉翔二的博客-CSDN博客

2.具身智能,是机器人的“冷饭热炒”吗?-CSDN博客 

 

这篇关于具身智能(Embodied AI)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/193161

相关文章

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Python3脚本实现Excel与TXT的智能转换

《Python3脚本实现Excel与TXT的智能转换》在数据处理的日常工作中,我们经常需要将Excel中的结构化数据转换为其他格式,本文将使用Python3实现Excel与TXT的智能转换,需要的可以... 目录场景应用:为什么需要这种转换技术解析:代码实现详解核心代码展示改进点说明实战演练:从Excel到

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll