具身智能（Embodied AI）

本文主要是介绍具身智能（Embodied AI），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

图灵奖得主、上海期智研究院院长姚期智认为，人工智能领域下一个挑战将是实现“具身通用人工智能”，即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士，也在某产业智能论坛上提出，随着基础模型的突破，通用智能机器人（具身智能）是未来的发展方向。

模型的好坏取决于数据和算力，以及算法，我们目前的数据源主要来自于各大龙头公司（存储数据较多的），比方说国外的Youtube、Flickr、Facebook，国内的各个大厂，算力取决于（CPU、GPU、TPU），目前在目标检测，自然语言处理领域取得了突出进展。

但现在有一个很明显的问题，所有的训练数据全部来自于网络，而且这些数据被存储之后是固定的，也是鱼龙混杂的（各种数据夹杂其中，真真假假无法分辨，是否有用无法断定），在这样的数据集中，模型所学到的也是生硬的（甚至不那么合理的）规则，而且学习之后，难以主动和真实世界交互，从而继续完善本身，这样的模型，固然可以应用于真实世界，提升便利性，但从模型本身而言，它不具有进化能力。

我们所希望的模型，是一个和人类一样，可以在不同的环境下重新学习并适应，以及不断进化的智能体，而不是一具只能执行命令的行尸走肉。

对于人类来说，从婴儿开始就扎根于真实世界，通过观察、移动、互动和与他人交谈来学习，我们脑海中存储知识都是和环境交互后得到的适合自己的知识，而不是从混乱和随机的经验中学习的（它只能作为一种参考，绝不是主体），这才是人类感知世界的方式！

1.具身智能

具身智能（Embodied AI）：希望智能体像人类一样在真实世界中通过实践（交互）来学习，它被认为是通往通用人工智能的关键钥匙。具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能，这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。简单来说，就是让智能体从数字世界走向实体世界，落地在机器人、机械臂、无人车、无人机，让实体世界中的机器人/仿真人具有智能，像人一样与环境交互感知，执行各种各样的任务。

但让一个智能体可以在真实环境下交互，需要集成多种技术。

假设一个场景：让现在最火的机器狗去买菜，那么对于这个机器狗而言，首先它要理解人类的命令（自然语言处理），在买菜的路上，他要能识别路上的障碍（避障）和需要买的菜（目标检测），同时他要明确自己的位置（定位），找到合适的路线（决策），并在路线上准确移动（导航）。而且一般来讲，为了安全性考虑，机器人在路上行动时我们需要同时用视觉和雷达等技术去判断机器和人的安全距离，再加上自然语言处理等技术，它们之间的交互和协作也是重中之重（多模态融合）。

2.发展

从上面例子中，我们能发现，首先从第一步，让机器人可以完全理解人类的命令就是一个很困难的事，也因此这个概念尽管早在上世纪就已经被提出，但却一直停滞不前。

幸运的是，Chatgpt横空出世，以大语言模型为中心的技术突破让人们看到了具身智能（通用智能）的希望，简单归为以下几类。

2.1 大模型

目前最典型的是语言大模型Chatgpt，现在各大厂也在加班研究视觉大模型。以语言大模型为例。

语言大模型相对于传统机器学习在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这让解决机器人的理解力、连续决策力、人机交互能力，有了可能。

微软研究院发布“ChatGPT for Robotics” 文章中提到，大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码，从而控制机械臂、无人机等机器人。

以前，由于传统AI不具备先验知识，理解力和泛化能力不足，机器人就无法像人一样拥有常识，必须要将一个指令由人类工程师分解成一连串简短的程式化程序，然后机器人（机械臂）再一步一步去完成每个动作。这表明机器人并不具备思考能力。

而大语言模型赋予了机器人思考能力，可以帮助机器人更好理解运用到高级语义知识，自动化地分析自己的任务并拆分成具体的动作。

例子，让机器人拿一个苹果，对于人类而言，他们会绕开室内的障碍物，但传统方式下，机器人并不具备“遇到障碍物要躲开”这样的常识，经常会做错事，而且不会自动错误，而大模型驱动的具身智能，就可以更好地理解这些知识，自动分解任务。

总结而言，语言语言大模型让智能体真正有了能够理解人类的能力，并赋予了智能体思考能力，相应智能体就具备了决策能力。而未来的视觉大模型，可以让机器人准确分辨（识别）这个世界的一切。

2.2 多模态

人类观察和理解这个世界，依赖于眼耳鼻舌身意。同样对于机器人而言它也要有这些能力，对于一个苹果，它要从视觉上看出它的特征（形状，颜色），味觉上品出味道，听觉上听出苹果从高空触地时和其他东西的声音差别，从嗅觉上闻出气味，从苹果的含义上，理解它的象征意义。这样智能体才算真正的了解了这个苹果，而这些感知对于机器人而言，是各自独立的，我们需要借助多模态融合，让机器人全方位理解一个东西，这才具有和真实世界交互的基础。