Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets

本文主要是介绍Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

发表时间:13 May 2023

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=1900983943467731200&noteId=2446646993511259136

作者单位:Stanford University

Motivation:使机器人能够以数据有效的方式学习新的视觉运动技能仍然是一个未解决的问题,有无数的挑战。解决这个问题的一种流行范式是利用大量未标记的数据集,这些数据集在其中具有许多行为,然后使用少量特定于任务的人工监督(即干预或演示)将策略适应特定任务。然而,如何最好地利用少量的的特定于任务的监督并将其与离线数据平衡仍然是一个悬而未决的问题。

解决方法我们对这项工作的关键见解是,特定于任务的数据不仅为agent提供了新的数据进行训练,而且还可以为agent应该用于学习的先验数据类型提供信息。具体来说,我们提出了一种简单的方法,该方法使用少量下游专家数据从离线、未标记的数据集(包括许多次优行为)中选择性地查询相关行为。然后agent在专家(特定于任务的)和查询到的数据上联合训练。我们观察到我们的方法学习仅查询到与任务相关的转换,过滤掉次优或与任务无关的数据。通过这样做,与näıvely混合数据或仅使用特定于任务的数据相比,它能够更有效地从任务特定和离线数据的混合中学习。

实现方式3 main steps:(A) 使用未标记的离线数据 Dprior,我们预训练状态动作嵌入。(通过VAE实现

(B) 我们使用预训练的嵌入在与任务数据 Dt 相关的离线数据 Dprior 中查找类似的转换。(通过多层感知(MLP)对状态和动作进行编码,形成状态-动作嵌入。也就是说,把每一对(state,action)映射成一个embedding,这个embedding来表示transitions(转变),然后用L2 distance度量embedding之间的距离,会设置一个阈值进行选择距离最小的几个transitions(转变))。

(C) 然后,我们在特定任务和重述数据的混合上使用行为克隆训练策略。(given the retrieved data, we then train the agent to jointly imitate Dret and Dt with a behavior cloning loss)(LSTM作为policy比较特别

实验:few-shot体现在:The task data Dt for all environments contain 10 expert demos for the target task.

Dprior是由各种demo组成的。

结论:首先,一个主要的限制是我们当前的查找依赖于状态和动作的压缩嵌入空间中的相似性。其次,行为检索还依赖于在学习新任务时访问先验数据集,这可能会阻止其对仅使用预训练模型可行的内存受限场景的适用性。

未来工作:结合许多其他研究方向,以实现更有效的模仿学习(如预训练表示、受限动作空间和大规模预训练)。

这篇关于Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1116373

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed 文章目录 DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed问题解决办法 问题 使用 DBeaver 连接 MySQL 数据库的时候, 一直报错下面的错误 Public Key Retrieval is

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于