Facebook让机器人“观看”上万次视频后,TA学会了自主绕道走路

本文主要是介绍Facebook让机器人“观看”上万次视频后,TA学会了自主绕道走路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据文摘出品

作者:张强、宋欣仪


人类每天都在进行不同层次的规划活动,比如说每天早上起床以后,你习惯性走到厨房喝一杯咖啡:你会先走下走廊,左转进入过道,然后进入右边的房间。


对于这些习惯成自然的流程,你无需思考,不会刻意去想你要使用哪一个肢体动作。但对于机器人而言,这并非易事。


Facebook刚刚发布了主导研究的新系统,让机器人也可以通过观看视频,拆解动作,并学习如何组合这些动作形成自己的规划。


层级抽象结构(hierarchal abstractions)


已经有越来越多的研究表明,层级抽象结构(即视觉运动子程序)可以提高强化学习中的采样效率,这是一种利用奖励驱动智能体达到目标的AI训练技术。


在过去,这些层次结构必须通过端到端的训练来手动编码或获取,而这需要大量的时间、注意力和长久的耐心。


Facebook这次的新研究提出,刻意让机器人通过观看视频学习导航,描述一个通过用逆向机器学习模型摄取视频伪标签(在本文中,伪标签指智能体想象的行为),从而学习层次结构的系统。


论文作者分别来自Facebook AI研究室,加州大学伯克利分校和伊利诺伊大学厄巴纳—香槟分校。



论文下载链接:
https://arxiv.org/pdf/1905.12612.pdf


这让人想起去年Facebook开源的一组模型——Talk the Walk。它只需要360°的全景图像、自然语言以及一张有当地地标(比如银行和餐馆)的地图就可以通过问路,实现在整个纽约市的街道导航。



具体实现方式


机器人通过观看这些视频,研究这些简单的视觉运动子程序是如何组合以达到高级的抽象层次,这些视觉运动子程序能够解决一些已知问题,即经典的规划中的高计算成本和强化学习中的样本复杂性的问题。


研究者提出的系统分为两个阶段,在第一阶段,研究人员通过运行在随机探索数据上自我监督的智能体模型生成伪标签。模型从分布在四个环境中的1500个不同位置学习,在不同的位置随机执行30个不同步骤的动作,从而产生45,000个交互样本。



在系统的第二阶段,大约217,000个伪标记视频被剪辑成220万个单独的小视频,再将其输入预测参考视频中相应动作的模型,同时再通过一个单独的网络检查参考视频中的动作序列,并编码其行为作为向量。另一个模型通过推断第一帧的轨迹的编码,来预测哪一个子程序可以调用给已有的视频帧。


交互样本从1000万减少到4.5万


在一个部署在办公环境的真实世界中的机器人实验中,研究人员表明,相比单纯交互的方法,至少应用在之前从未见过的环境上,通过观看视频来学习技能(这里指采用最高效的方式前往目标位置)的方式能达到更好的效果。


最令人印象深刻的是,训练有素的模型学会了自主地前进导航并避开障碍物,比通过单纯交互方式要快4倍,这使得机器人能够做到完全自主地长距离行进。


“特别引人注目的是,这些模型从总计45,000次的环境交互中学习,”研究人员写道,“从第一视角的视频中成功学习,使得智能体能够执行连贯的轨迹,即使它只执行过随机动作。此外,它优于最先进的技能学习技术,该技术需要更大量的训练样本,大致1000万个。”


相关报道:

https://venturebeat.com/2019/05/30/facebooks-ai-learns-how-to-get-around-an-office-by-watching-videos/

论文地址:

https://arxiv.org/abs/1905.12612

这篇关于Facebook让机器人“观看”上万次视频后,TA学会了自主绕道走路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/664067

相关文章

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html