「off-policy强化学习」被低估!Google Brain等提出使用off-policy算法的「机器人抓取」任务基准

本文主要是介绍「off-policy强化学习」被低估!Google Brain等提出使用off-policy算法的「机器人抓取」任务基准,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


本文转自雷克世界(ID:raicworld)

编译 | 嗯~阿童木呀


在本文中,我们探讨了用于基于视觉的机器人抓取操作的深度强化学习算法。无模型深度强化学习(RL)已经在一系列具有挑战性的环境中得到了成功应用,但算法的激增使得我们难以辨别出哪种特定的方法最适合于执行一个丰富的、多样化的任务,例如抓取。为了回答这一问题,我们提出了一个机器人抓取的模拟基准,强调了对于没见过的目标的策略学习和泛化。


Off-policy学习能够在各种各样的目标上对抓取数据加以利用,而且多样性对于使该方法能够在训练期间泛化到没见过的目标中起到至关重要的作用。我们对针对各种Q函数估计方法的基准任务进行了评估,一种是以往提出的,使用深度神经网络模型进行机器人抓取,以及一种基于蒙特卡罗回归估计(Monte Carlo return estimation)和off-policy校正相组合的新方法。我们的研究结果表明,几种简单的方法为诸如双Qlearning这样的通用算法提供了一个令人惊讶的强大竞争对手,而我们对稳定性的分析揭示了算法之间的相对权衡。

 


机器人抓取是最基本的机器人操作任务之一:在与环境中的目标进行交互之前,机器人通常必须从先抓取它们开始。在以前的机器人操作研究中往往试图通过各种各样的方法解决抓取问题,从分析抓取度量到基于学习的方法。直接从自我监督中学习抓取为这一领域提供了相当有发展前景的研究方向:如果机器人能够通过反复的经验逐渐提高自身的抓取能力,那么它可能会在极少人为干预的情况下达到非常高的熟练程度。


实际上,受计算机视觉技术启发的,基于学习的方法近年来取得了良好的效果。然而,这些方法通常不是导致抓取任务序列方面结果的原因所在,要么选择一个单一的抓取姿势,要么贪婪地反复选择下一个最有希望抓取的姿势。虽然先前的研究已经在一个序列决策上下文中,对使用深度强化学习(RL)作为机器人抓取的框架进行了探索,但这样的研究要么仅限于单一的目标,要么是诸如立方体这样的简单几何形状。

 


左上角:我们模拟抓取环境的演示。机器人必须在容器中拾取目标,所使用的随机目标如图2所示的。右上角:对机器人的样本观察。左下角:在第一个任务中,机器人选择了各种各样的随机目标,并将其泛化到没见过的测试目标中。右下角:在第二项任务中,机器人必须从杂乱的箱子中挑出一个紫色的十字形物体。


在这项研究中,通过在一个真实的模拟基准中对各种强化学习方法加以比较,我们探讨了强化学习是如何用于自动学习用于不同物体的机器人抓取技巧


在基于学习的抓取中,最重要的挑战之一是泛化能力:该系统能够学习抓取模式和线索,从而使其能够成功对训练期间不可见的目标实现抓取吗?成功的泛化通常需要对各种各样的目标和场景进行训练,以获得可泛化的感知和控制。先前有关抓取的监督学习研究已经使用了数万乃至数百万个抓取动作,涉及数百个不同的目标。


这种机制对于强化学习来说是一个重大挑战:如果学习主要是on-policy进行的,那么机器人必须反复重访先前所看到的目标以避免遗忘,这使得处理极其多样化的抓取场景变得更加困难。因此,Off-policy强化学习方法可能更适用于诸如抓取这样的任务,其中各种先前看到的目标对于泛化来说具有至关重要的作用。事实上,在以前的研究中所探讨的监督学习方法可以被形式化为Off-policy强化学习的特例,而不考虑抓取任务的序列本质。

 

左:用于训练的900个物件中的30个。右:100个测试物件中的10个。


我们在本文中的研究目标是了解哪些Off-policy强化学习算法最适合基于视觉的机器人抓取任务。


近年来,为解决Atari游戏和简单模拟机器人的控制等问题,科学家们已经提出了许多无模型、Off-policy深度强化学习方法。然而,这些研究并没有对机器人抓取任务中出现的各种各样的高度变化的情况进行探索,重点通常集中在最终的性能表现上(例如期望奖励),而不是泛化到新的目标和场景中。此外,训练通常涉及逐步收集越来越多的on-policy数据,同时将旧的off-policy数据保留在重放缓冲区中。我们研究这些算法的相对性能是如何在一个强调多样性和泛化能力的off-policy机制中进行变化的。


我们对这些方法的讨论,为以往研究中的各种Q-函数估计技术提供了一个统一的处理方法。我们的研究结果表明,深度强化学习可以成功地从原始像素中学习抓取多种目标,并且可以在我们的模拟器中对以往没有见过的目标进行抓取,且平均成功率为90%。


令人惊讶的是,在这个具有挑战性的领域中,朴素蒙特卡罗评估是一个强有力的基准,尽管在off-policy情况下存在一定的偏差。我们提出的无偏差、校正版本实现了可与其相媲美的性能表现。深度Q-learning在数据有限的机制系统下表现得也很出色。我们还分析了不同方法的稳定性,以及在on-policy 和off-policy情况下,不同off-policy数据数量情况下的性能差异。我们的研究结果揭示了不同方法是如何在现实的模拟机器人任务上进行比较的,并提出了开发新的、更有效的用于机器人操作的深度强化学习算法的途径。

 

对不同数据集大小的测试目标的定期抓取性能展示。DQL和监督基线性能表现最好。从9个独立运行的随机seeds中计算的标准差。


我们提出了一系列off-policy、无模型深度强化学习算法的经验评估。我们的算法集包括通用的无模型方法,如双Q-learning、DDPG和PCL,以及基于监督学习的使用合成动作的先验方法。


除此之外,我们的方法中还涵盖一个朴素蒙特卡罗方法,它在off-policy情况下存在偏差,但却能够取得合理的性能表现,且常常优于DDPG,以及一个该蒙特卡罗方法的修正版本,也是这项研究的一个新成果。我们的研究实验是在一个涉及两种任务的多样化抓取模拟器上进行的,一个抓取任务是对训练期间全新的、不可见随机目标的泛化能力的评估,以及一个目标抓取任务,它需要在混乱状态下的特定类型的目标进行分离并抓取。



针对不同的数据集大小,将抓取目标锁定在一个有三个目标物件和四个非目标物件的混乱的箱子中。DQL在较少数据和off-policy环境中表现良好,而蒙特卡罗和修正版蒙特卡罗方法在具有最大量数据的环境中表现最好。


我们的评估结果表明,无论是对于on-policy还是off-policy学习来说,DQL的性能表现都要比较少数据机制下的其他算法好得多,并且附加带有对超参数选择具有鲁棒性的理想属性。当数据更丰富时,诸如蒙特卡罗或蒙特卡罗修正版本这样的回归到多步返回的算法,通常会获得稍好的性能表现。


在考虑算法特征时,我们发现使用演员网络(actor network)会大大降低稳定性,导致性能表现较差和严重的超参数敏感性。当数据充足时,使用完整事件值进行监督的方法往往表现得更好,而自助式(bootstrapped)DQL方法在较少数据情况下表现更好。


这些结果表明,在可以使用off-policy数据的机器人环境中,更适合使用单一网络方法以维护稳定性;而在数据充足时,使用(修正)完整事件返回的方法是更好的首选,而bootstrapped方法更适合用于较少数据环境中。这一结果的本质含义是,在未来,对机器人强化学习算法的研究可能会集中在通过调整基于数据可用性的目标值类型以将最佳自助式和多步返回结合起来。我们研究的另一个自然延伸是在实际环境中评估类似的方法。由于我们所评估的算法都能在off-policy环境下成功运行,因此在现实环境中使用它们也可能是一个合理且实用的选择。


原文来源:arXiv

作者:Deirdre Quillen、Eric Jang、Ofir Nachum、Chelsea Finn、Julian Ibarz、Sergey Levine

原文链接:https://arxiv.org/pdf/1802.10264.pdf



点击下方“阅读原文”了解【人工智能实验平台】
↓↓↓

这篇关于「off-policy强化学习」被低估!Google Brain等提出使用off-policy算法的「机器人抓取」任务基准的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898138

相关文章

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

prometheus如何使用pushgateway监控网路丢包

《prometheus如何使用pushgateway监控网路丢包》:本文主要介绍prometheus如何使用pushgateway监控网路丢包问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录监控网路丢包脚本数据图表总结监控网路丢包脚本[root@gtcq-gt-monitor-prome

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

java使用protobuf-maven-plugin的插件编译proto文件详解

《java使用protobuf-maven-plugin的插件编译proto文件详解》:本文主要介绍java使用protobuf-maven-plugin的插件编译proto文件,具有很好的参考价... 目录protobuf文件作为数据传输和存储的协议主要介绍在Java使用maven编译proto文件的插件