两个Bot自创新语言!Facebook机器人纽约自由行导航定位碾压人类

本文主要是介绍两个Bot自创新语言!Facebook机器人纽约自由行导航定位碾压人类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【新智元导读】在FAIR和蒙特利尔大学合作的最新研究中,研究人员首次将实验中将感知、行动和使用自然语言交互达成目标这三个任务结合在一起:让两个Bot使用自然语言对话,让“导游bot”将“游客bot”带到指定地点,而且导航成功率超越了人类。

Facebook让两个Bot自己游纽约,“导游Bot”在模拟的纽约市中导航定位,使用自然语言跟“游客Bot”交流,成功率超过了88%!

这已经显著超越某些“路痴”人类,而且,两个Bot还是使用自然语言在交流。

在今天最新上传到arxiv的一篇研究论文中,Facebook人工智能实验室(FAIR)与蒙特利尔大学合作,研究人工智能系统如何定位,并比人类更好地传达观测数据。

研究人员把他们的实验成为“Talk the Walk”。在实验中,他们将游客Bot随机放到纽约市的一个街角,再让一个导游Bot将前者引导到2D地图上的某个位置。导游Bot知道地图,也知道目标地点,但是不知道游客Bot在哪里;游客Bot拥有360°视角,但不知道地图,也不清楚目标地点。

游客和导游必须相互沟通,交流彼此所知道的信息,才能实现目标。

想象一下两个Bot的对话:

导游:你好,你在附近吗?
游客:你好,在我面前是“布鲁克斯兄弟”。
导游:这是家商店还是餐馆?
游客:这是一家服装店。
导游:你往地图西北角的十字路口走。
游客:我身后似乎有一家银行。
导游:好的,左转然后沿着那条路直行。
...

研究人员表示,Talk the Walk是首个将所有三个要素结合在一起的任务:感知(游客Bot观察世)、行为(游客Bot在环境中导航),以及语言交互达成目标(导游Bot为游客Bot提供引导帮助其实现目标)。


image

首次将感知、行动和使用自然语言交流达成目标结合在一起

实验中使用的街景地图数据,是MTurk众包手动收集的几个纽约市街区的360°视图。这些街景环境被整合到ParlAI中,这是Facebook的一个用于训练AI的框架,支持很多任务,包含的数据集包括SQuAD, bAbI tasks, MS MARCO, MCTest, WikiQA, WebQuestions等等。

实验中使用的自然语言数据,也是MTurk的真人对话,用几周时间收集,包含10k成功的导航对话。平均来说,人类需要超过62次行动(对话和走路)才能顺利到达目标地点。大部分行动发生在游客这边,平均每次对话44次行动。人类导游大约说了9次话(稍微比游客的8次话多一点点)。

虽然研究人员的目标是让Bot通过自然语言来处理收集到的信息,但他们发现,当Bot使用“合成语言”时,完成任务的效果更好,因为后者更依赖于使用更简单的符号来传达信息和位置。这种不那么自然的数据通信方式不仅优于人类的聊天,还能让Bot比人在自然语言聊天中更简单快读地找到自己的道路。


image

机器比人类更擅长导航定位!

Talk The Walk的实验环境设置全部来自现实世界,因此尤其困难。让两个人用文字描述自己周围的不熟悉环境已经不容易,何况两个Bot?

为了解决这个问题,研究人员提出了一个名为MASC(Masked Attention for Spatial Convolution)的机制,让Bot能快速从语言模型中解析对方回应的关键字的内容。Facebook表示,利用该流程可以使正在测试的结果的准确性翻倍。


image

结果显示,他们最好的沟通模型(emergent communication model)准确率几乎达到了70%,要显著优于从人类话语中得到最好的定位模型(大约20%),这表明人类很不善于定位,因为人类并不总能很好地传达自己的观察和行动。

不仅如此,他们最好的定位模型(continuous communication, with MASC, and T = 3)在整个导航任务测试中达到了88.33%的准确率,超过了人类76.74%的表现。

激动人心的新研究方向:用自然语言对话解决现实世界问题

研究人员表示,这是一项基础性研究,这次实验只是初步结果,还提出了更多的问题等待解决。

“如果你真的想要解决所有人工智能问题,那么你可能要有解决不同子问题的不同模块或组件,”Facebook AI研究科学家Douwe Kiela在接受TechCrunch记者采访时表示:“从这个意义上说,这个问题是一个真正的挑战。”

他希望有更多的人参与进来与他们共同在这个激动人心的新研究方向上与他们合作。


image

论文地址:https://arxiv.org/pdf/1807.03367.pdf

原文发布时间为:2018-07-12
本文作者:
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:两个Bot自创新语言!Facebook机器人纽约自由行导航定位碾压人类

这篇关于两个Bot自创新语言!Facebook机器人纽约自由行导航定位碾压人类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/664066

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚:

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

如何确定 Go 语言中 HTTP 连接池的最佳参数?

确定 Go 语言中 HTTP 连接池的最佳参数可以通过以下几种方式: 一、分析应用场景和需求 并发请求量: 确定应用程序在特定时间段内可能同时发起的 HTTP 请求数量。如果并发请求量很高,需要设置较大的连接池参数以满足需求。例如,对于一个高并发的 Web 服务,可能同时有数百个请求在处理,此时需要较大的连接池大小。可以通过压力测试工具模拟高并发场景,观察系统在不同并发请求下的性能表现,从而

C语言:柔性数组

数组定义 柔性数组 err int arr[0] = {0}; // ERROR 柔性数组 // 常见struct Test{int len;char arr[1024];} // 柔性数组struct Test{int len;char arr[0];}struct Test *t;t = malloc(sizeof(Test) + 11);strcpy(t->arr,

C语言指针入门 《C语言非常道》

C语言指针入门 《C语言非常道》 作为一个程序员,我接触 C 语言有十年了。有的朋友让我推荐 C 语言的参考书,我不敢乱推荐,尤其是国内作者写的书,往往七拼八凑,漏洞百出。 但是,李忠老师的《C语言非常道》值得一读。对了,李老师有个官网,网址是: 李忠老师官网 最棒的是,有配套的教学视频,可以试看。 试看点这里 接下来言归正传,讲解指针。以下内容很多都参考了李忠老师的《C语言非

C 语言基础之数组

文章目录 什么是数组数组变量的声明多维数组 什么是数组 数组,顾名思义,就是一组数。 假如班上有 30 个同学,让你编程统计每个人的分数,求最高分、最低分、平均分等。如果不知道数组,你只能这样写代码: int ZhangSan_score = 95;int LiSi_score = 90;......int LiuDong_score = 100;int Zhou