具身智能(Embodied AI)

2023-10-12 04:12
文章标签 ai 智能 具身 embodied

本文主要是介绍具身智能(Embodied AI),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 前言

      图灵奖得主、上海期智研究院院长姚期智认为,人工智能领域下一个挑战将是实现“具身通用人工智能”,即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士,也在某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。

    模型的好坏取决于数据和算力,以及算法,我们目前的数据源主要来自于各大龙头公司(存储数据较多的),比方说国外的Youtube、Flickr、Facebook,国内的各个大厂,算力取决于(CPU、GPU、TPU),目前在目标检测,自然语言处理领域取得了突出进展。

      但现在有一个很明显的问题,所有的训练数据全部来自于网络,而且这些数据被存储之后是固定的,也是鱼龙混杂的(各种数据夹杂其中,真真假假无法分辨,是否有用无法断定),在这样的数据集中,模型所学到的也是生硬的(甚至不那么合理的)规则,而且学习之后,难以主动和真实世界交互,从而继续完善本身,这样的模型,固然可以应用于真实世界,提升便利性,但从模型本身而言,它不具有进化能力。

      我们所希望的模型,是一个和人类一样,可以在不同的环境下重新学习并适应,以及不断进化的智能体,而不是一具只能执行命令的行尸走肉。

      对于人类来说,从婴儿开始就扎根于真实世界,通过观察、移动、互动和与他人交谈来学习,我们脑海中存储知识都是和环境交互后得到的适合自己的知识,而不是从混乱和随机的经验中学习的(它只能作为一种参考,绝不是主体),这才是人类感知世界的方式!

 

1.具身智能

 

      具身智能(Embodied AI):希望智能体像人类一样在真实世界中通过实践(交互)来学习,它被认为是通往通用人工智能的关键钥匙。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。简单来说,就是让智能体从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机,让实体世界中的机器人/仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务。

      但让一个智能体可以在真实环境下交互,需要集成多种技术。

假设一个场景:让现在最火的机器狗去买菜,那么对于这个机器狗而言,首先它要理解人类的命令(自然语言处理),在买菜的路上,他要能识别路上的障碍(避障)和需要买的菜(目标检测),同时他要明确自己的位置(定位),找到合适的路线(决策),并在路线上准确移动(导航)。而且一般来讲,为了安全性考虑,机器人在路上行动时我们需要同时用视觉和雷达等技术去判断机器和人的安全距离,再加上自然语言处理等技术,它们之间的交互和协作也是重中之重(多模态融合)。

 

2.发展

 

      从上面例子中,我们能发现,首先从第一步,让机器人可以完全理解人类的命令就是一个很困难的事,也因此这个概念尽管早在上世纪就已经被提出,但却一直停滞不前。

      幸运的是,Chatgpt横空出世,以大语言模型为中心的技术突破让人们看到了具身智能(通用智能)的希望,简单归为以下几类。

 

2.1 大模型

 

      目前最典型的是语言大模型Chatgpt,现在各大厂也在加班研究视觉大模型。以语言大模型为例。

      语言大模型相对于传统机器学习在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这让解决机器人的理解力、连续决策力、人机交互能力,有了可能。

      微软研究院发布“ChatGPT for Robotics” 文章中提到,大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人。

      以前,由于传统AI不具备先验知识,理解力和泛化能力不足,机器人就无法像人一样拥有常识,必须要将一个指令由人类工程师分解成一连串简短的程式化程序,然后机器人(机械臂)再一步一步去完成每个动作。这表明机器人并不具备思考能力。

      而大语言模型赋予了机器人思考能力,可以帮助机器人更好理解运用到高级语义知识,自动化地分析自己的任务并拆分成具体的动作。

      例子,让机器人拿一个苹果,对于人类而言,他们会绕开室内的障碍物,但传统方式下,机器人并不具备“遇到障碍物要躲开”这样的常识,经常会做错事,而且不会自动错误,而大模型驱动的具身智能,就可以更好地理解这些知识,自动分解任务。

      总结而言,语言语言大模型让智能体真正有了能够理解人类的能力,并赋予了智能体思考能力,相应智能体就具备了决策能力。而未来的视觉大模型,可以让机器人准确分辨(识别)这个世界的一切。
 

2.2 多模态

 

人类观察和理解这个世界,依赖于眼耳鼻舌身意。同样对于机器人而言它也要有这些能力,对于一个苹果,它要从视觉上看出它的特征(形状,颜色),味觉上品出味道,听觉上听出苹果从高空触地时和其他东西的声音差别,从嗅觉上闻出气味,从苹果的含义上,理解它的象征意义。这样智能体才算真正的了解了这个苹果,而这些感知对于机器人而言,是各自独立的,我们需要借助多模态融合,让机器人全方位理解一个东西,这才具有和真实世界交互的基础。

 

2.3 决策

 

      传统人类将在仿真环境训练训练的能力,运用在现实世界中后,发现无法机器人无法解决,仿真环境未出现的情况,而再次训练又费时费力。

      大模型时代,具身智能模型的训练与测试,与云服务相结合,可以在云上虚拟仿真场景下,进行端到端的实时训练与测试,快速完成端侧迭代与开发,这就大大加速了具身智能体的进化速度。

      具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代,积累对物理世界的深度理解,产生大量交互数据,再通过与真实环境的不断交互积累经验,全面提升在复杂世界的自动移动、复杂任务的泛化能力,展现在具身载体上,就是机器人可以更好地适应环境,更灵活地运用机械“躯干”来进行人机交互。
 

写在最后:尽管人工智能被吹嘘的很美丽,但我们现在所使用的基于人工智能的机器人,是先在在仿真环境中学习,再应用于真是世界,尽管它具有很强的能力,但在真实世界中它并没有重新学习能力,现实世界中新出现的,在仿真环境中没有被训练的状况,它不能解决。但具身智能让机器人有了在真实世界中学习的能力

 

往期文章

 

1.zore-shot,迁移学习和多模态学习-CSDN博客

 

参考文献

 

1.具身智能综述和应用(Embodied AI)_上杉翔二的博客-CSDN博客

2.具身智能,是机器人的“冷饭热炒”吗?-CSDN博客 

 

这篇关于具身智能(Embodied AI)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/193161

相关文章

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time