会搭积木的AI,正在手眼并用地探索现实世界

2024-03-19 00:10

本文主要是介绍会搭积木的AI,正在手眼并用地探索现实世界,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif 640?wx_fmt=jpeg

春节假休完,北上广又开始上演小城妈宝惨变五环内社畜的惨剧。恢复到自己洗衣做饭收拾屋子的日子,年轻人们又深刻地感受到——科技不能改变生活,老妈才能。


人工智能虽然在各种游戏比赛中血虐人类,但在现实世界里却不能帮助人类“血虐”家务活。在研究更适用于复杂现实场景的机器人这件事上,我们一直在努力。


一般来说通过计算机视觉对外界进行感知,再结合数据模拟计算规划行动,是机器人训练研究的一个常见的方向。


比较典型的有伯克利一直在尝试的少样本强化学习,类似于拿一段叠被子的视频作为训练数据,利用奖励机制引导AI进行学习,直到AI也学会叠被子为止。甚至还会引入“叠错被子”的视频作为训练数据,教导AI如何在任务执行错误的过程中进行自我修正。


因为在现实世界,尤其是家庭、门店、餐厅这种极具生活化的场景中,存在有太多不确定性,很难像自动化技术那样,规定好一套固定的流程。近年来研究较为深入的计算机视觉,也包括雷达传感、红外传感这样的传感技术便被利用起来了。


除去实验室的研究以外,我们在日常生活中也能看到很多依赖视觉能力来判定现实问题的机器人,例如工厂里通过视觉识别瑕疵品并进行分拣的机械手臂。但仅仅依赖视觉,或者激光雷达、红外传感等空间感知能力,也并不能帮助机器人们做好面对现实世界的准备。


640?wx_fmt=png


就像在电影里常常出现这样的情节:机器人已经发展到高度智能化,甚至和人类无异,但在做一些类似于拿起一包牛奶,或者跟人类握手的动作时,往往会掌握不好力道。


这种情节并不是完全虚构的,对于应用视觉传感技术的机器人来说,它们能够辨识外界事物的形状,却很难判断外界事物的质地、密度和受力情况。所以在很多情况中,光有视觉技术是远不足够的。


守序善良且秀:

一位非人类的职业积木玩家


比如很多人都玩过,或者在美剧里见过的桌游“叠叠乐”——用积木条堆叠成积木塔,参与玩家在不导致塔倒塌的前提下从塔身中抽出积木条,将积木条搭到塔顶端,塔在哪位玩家的回合中倒塌,哪位玩家就输掉比赛。


640?wx_fmt=png


“叠叠乐”就是典型的AI一定打不过人的游戏。因为这种游戏考验的不仅是策略性,还有动手能力,取出和放置积木时动作轻了重了,都可能导致游戏失败。不光如此,叠叠乐的游戏过程还具有很大的不确定性,堆起积木塔时每条积木位置的轻微变化,对手玩家在拿走积木条时对其他积木位置带来的改变,都在影响着整个积木塔的稳定性,也直接决定了玩家的下一步动作。


这种过程如果是用视觉技术理解,则需要难以想象的海量计算——堆起积木塔时每一条积木的位置、两位玩家的每一步动作,都会造成无数的分叉结果,几乎是不可能完成的任务。


但只需要一点点小小的不同,这个难题就被解决了。


在最近的Science Robotics期刊中,来自MIT的科研人员公布了他们最新的研究成果——用机器手臂玩叠叠乐。


项目负责人Rodriguez提到,之所以选择叠叠乐作为实验对象,是因为这个游戏中体现了机器人应用的一个重要问题——物理交互,也就是前面提到的动手能力。


为了解决物理交互问题,MIT为普通机械手臂添加了三样东西,柔性夹钳、有力量传感作用的腕带和拍摄全局画面的摄像头。


在进行训练时,机械手臂每抽取一块积木时,力量传感器就会记录下动作的速度和力度,不断和上一次的数据进行对比,摄像头也会从视觉角度进行记录,与力量数据进行对应在分层贝叶斯模型中进行计算。在进行过大概三百次游戏后,通过两种数据维度的配合学习,AI可以快速建立出一个聚类模型,从一个积木塔中寻找稳定性更强的、不会破坏平衡的积木条。相比试图找到一个能应付所有情况的模型,这种在每次移动积木时都重新聚类的方法显然要高效很多。


在测试时,机械手臂的表现也很优异,参与测试的人类志愿者纷纷表示被秀一脸,机械手臂自己玩叠叠乐时的水平已经接近人类了。不过在与人类对战时还是要落后一筹,因为人类玩家在抽取积木时会特意难为对手,在自己的回合破坏平衡性,让积木塔很容易在下一回合倒塌。但AI还做不到这一点,在这一模型中,AI的每一步操作都是为了增强整个积木塔的稳定性——一位典型的秩序善良玩家。


这也导致了在叠叠乐上,AI还很难实现和人类对战。不过项目负责人Rodriguez认为,他们创造这个项目本来也不是为了和人类在叠叠乐游戏上一决高下的。


当AI开始多才多艺


BBC、CBS News和Wired等主流媒体都对这一研究结果给出了很高的评价,原因就在于这一研究在AI的触觉刺激上突破,具有很高的现实意义。


MIT提到,目前应用在叠叠乐AI模型上的原理,同样也可以被应用在另外一些应用机械手臂的场景中。


例如在一些数码产品精细部分的组装上,在拧一些很小的螺丝时,很难实现以视觉方式进行测量,只能通过触觉进行感应。但有了“叠叠乐AI”的经验,普通机械手臂也能通过一些简单的改装,增加力量传感机制在短时间完成训练,学会以触觉刺激为参考标志的组装、包装等工作。


虽然现在自动化工业生产线也能实现在无人状态下进行精细组装工作,但其实现成本是非常巨大的。可能一条生产线只能完成某一部件上的一小颗螺丝,对于中小型厂商来说很难承担得起。但拥有了触觉刺激的机械手臂结合AI算法,却可以帮助类似的功能走进小型生产线甚至家庭。


640?wx_fmt=png


其实这种结合两种纬度数据进行AI训练的方式并非MIT独有,在去年我们在一些类似于视频分析的领域中,也能看到诸如画面分析+语音分析的多模态理解。


聚焦到机器人领域中,这几年也有很多类似的研究。例如模拟人类手指力量感知能力的机械钢琴手,通过操作时获取钢琴按键反弹时的数据反馈,来更精准地模拟出人类弹钢琴时的轻与重。还有低成本的生物感应电子皮肤,可以贴合在机械设备上帮助寻找施力方向。


随着触觉机制越来越多地被引入机器人领域,与视觉系统、红外/激光雷达等其他传感模式的结合也越来越多。


可见在探索现实世界的旅途中,AI正在愈发多才多艺起来。相信当机器人也开始手眼并用时,我们距离“科技改变生活”的未来也越来越近了。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=gif

640?wx_fmt=jpeg

这篇关于会搭积木的AI,正在手眼并用地探索现实世界的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824140

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti