One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

本文主要是介绍One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

发表时间:5 Jun 2024

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912

作者单位:Rutgers University

Motivation:学习一个通用的policy,可以执行一组不同的操作任务,是机器人技术中一个有前途的新方向。然而,现有技术仅限于学习策略,该策略只能执行训练期间遇到的任务,并且需要大量演示来学习新任务。另一方面,人类通常可以从单个未注释的演示中学习新任务

如上面的动机图:Kuka 机器人的任务是拿起杯子并将其倒入碗中,使用单个演示来拾取和倾倒不同位置的不同杯子,IMOP的核心是估计和匹配给定任务的不变区域的能力。

解决方法:在这项工作中,我们提出了不变性匹配一次性策略学习 (IMOP) 算法。与直接学习末端执行器姿态的标准实践相比,IMOP首先学习给定任务的状态空间的不变区域,然后通过匹配演示和测试场景之间的不变区域来计算末端执行器的姿态

特点:

  1. 不用微调,直接泛化到新的任务。IMOP can perform one-shot sim-to-real transfer using a single real-robot demonstration.

  2. 在这项工作中,我们提出了不变区域的概念。我们没有相机视点不变性,而是训练神经网络来预测位置对给定任务的机器人末端执行器保持不变的区域。与可供性不同,所提出的不变区域不用于表示动作概率,而是将动作从演示转移到测试场景。

  3. IMOP不是直接学习所需的末端执行器的姿态,而是学习每个任务的关键不变区域,并在one-shot demonstration和给定的测试场景中找到不变区域之间的成对对应关系。这个成对的对应 用于从点集配准问题的最小二乘解分析计算测试场景中所需的末端执行器的姿态。不变区域被定义为一组 3D 点,其坐标在末端执行器的帧中查看时保持不变,跨越共享相同语义动作的状态如何得到不变区域的?我们设计了一个基于图的不变区域匹配网络。不变区域通过从连接演示和测试场景的点云的KNN图中通过neighbor attention定位。

  4. 在基础任务上进行训练后,IMOP 在与基础任务有很大不同的新任务上进行评估。每个学习任务都在多个试验中进行评估,每个试验都有不同的对象布局和方向。对于每个新任务,只有一个记录的轨迹作为演示给出。

总而言之,我们的贡献有三个方面:

  • 我们提出了 IMOP,这是一种用于机器人操作的one-shot imitation learning algorithm ,它学习通用策略,不仅在基础任务上成功,而且还使用单个未注释演示推广到新任务。

  • 提出了一种基于对应的操作任务姿态回归方法,该方法通过匹配关键视觉元素来预测机器人的动作,在KNN图上连接演示和测试场景的基于图的不变区域匹配网络。(本质上只有2这一点创新

  • 我们对IMOP在不同任务集上的性能和泛化能力进行了彻底的实证研究。(有sim有real)

实现方式

Invariant Region Matching Network:我们首先通过将每个点连接到同一场景中最近的k个点,为每个场景点云构建一个KNN图。接下来,我们在每个支持场景 si 内应用图自注意力,并在相同的支持演示中对连续帧 si 和 s′i 的 KNN 图之间进行交叉注意。We use the point transformer layer as the graph attention operator。

Correspondence-based Pose Regression: 6自由度位姿回归的标准做法是从神经网络中获取动作位姿 T。然而,这种方法不能很好地推广到新任务,如第 IV-B 节所述。相反,我们建议通过使用标准最小二乘算法求解公式 1 中的优化问题来分析计算查询状态 sj 的动作姿势 Tj

State Routing Network:我们设计了一个状态路由网络(如图4所示),在给定查询场景sj的情况下,在one-shot演示τ中选择支持帧si。我们首先使用PTv2主干提取查询状态sj和τ中的每个状态的场景级特征。接下来,我们遵循现有工作的惯例,将场景级特征与低维内部机器人状态连接起来,包括关节位置和时间步长。然后,我们对多个状态的特征应用交叉注意。

The three techniques presented above form together theInvariance Matching One-shot Policy Learning (IMOP) algorithm.

实验:We first train and evaluate our algorithm on the standard 18 RLBench tasks, and then measure its one-shot generalization ability on 22 novel tasks from 9 categories。

输入:record128 × 128 RGB-D images from the front, left/right-shoulders, and wrist cameras.

one-shot设定:We choose 22 novel tasks that have different object setups and task goals from the base ones, according to the task categorization of Hiveformer。For each novel task, only a single successful trajectory is provided, as a one-shot demonstration. Each task is evaluated on 25 independent trials, and we report the average success rate.(也是类似元学习的设定)

real: a Kuka LBR iwa robot. We adopt five novel tasks: put toys in bowls, stack blocks, put items in shelves, open bottles, and pour cups.

结论:我们已经证明,可以通过学习估计和匹配演示和测试场景中的关键不变区域来实现one-shot novel task generalization。目标末端执行器的姿态可以通过找到不变区域之间的对应关系来转移。

未来:

  • 所提出的通过匹配关键视觉元素转移动作的想法是通用的,但不变区域的当前定义仍然与刚体变换密切相关。这表明基于更一般的运动描述符(如扭曲或流)扩展不变区域的这一形式的潜力。

  • 除了仅利用单个演示之外,还可以维护来自最相关状态的演示池和转移动作,以提高操作性能并减少具有大变化或需要故障恢复的场景下的错误累积。

这篇关于One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1140359

相关文章

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

pytorch torch.nn.functional.one_hot函数介绍

torch.nn.functional.one_hot 是 PyTorch 中用于生成独热编码(one-hot encoding)张量的函数。独热编码是一种常用的编码方式,特别适用于分类任务或对离散的类别标签进行处理。该函数将整数张量的每个元素转换为一个独热向量。 函数签名 torch.nn.functional.one_hot(tensor, num_classes=-1) 参数 t

leetcode#10. Regular Expression Matching

题目 Implement regular expression matching with support for ‘.’ and ‘*’. '.' Matches any single character.'*' Matches zero or more of the preceding element.The matching should cover the entire input

leetcode#66. Plus One

题目 Given a non-negative integer represented as a non-empty array of digits, plus one to the integer. You may assume the integer do not contain any leading zero, except the number 0 itself. The digi

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

ssh登录服务器报错“no matching host key type found. Their offer: ssh-rsa,ssh-dss”解决方法

这个错误表明你尝试使用 ssh 连接到远程服务器时,客户端和服务器之间没有匹配的 host key 类型。具体来说,远程服务器提供了 ssh-rsa 和 ssh-dss 类型的 host key,但你的 SSH 客户端配置可能不再支持这些较旧的算法。最近的 OpenSSH 版本默认禁用了不够安全的算法,如 ssh-rsa 和 ssh-dss。 解决方法 临时启用 ssh-rsa: 你可以在