机器人强化学习——Learning Collaborative Pushing and Grasping Policies in Dense Clutter（ICRA 2021）

本文主要是介绍机器人强化学习——Learning Collaborative Pushing and Grasping Policies in Dense Clutter（ICRA 2021），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述

基于3D视觉联合学习平面推和6DOF抓取，采用Q-learning。

推和抓取使用两个独立的网络，通过采样器获得6-DOF抓取位姿。

在这里插入图片描述

state：RGBD图像

action：行为基元选择（推、抓取）、末端的三维位置和旋转。
在这里插入图片描述

在push动作下，action由图像上二维的点和平面的旋转角构成，机械手在该点处沿旋转角方向推10cm。

如何push物体：Durin g the execution, the gripper holds the same height from the tabletop in order to keep the push planar and stable.
不是力位混合控制。

reward：成功抓取为1，否则为0。不对push动作设计直接的reward。

与之不同，设计reward：场景图像的差值大于阈值时 reward=0.5。该reward鼓励push动作使场景产生变化，但没有明确地使未来的抓取更方便。

policy：使用Q-learning，输入s和a，输出Q；使用TD（时序差分）方式更新网络。

action选择如下：

loss：只计算采取的action对应的像素位置处的损失，其他都设为0。push和grasp采用不同的损失。

对于push，计算采取push动作后图像的差异，如果大于阈值，则对应像素处的push标签为1？。由于阈值需要人工给定，可能导致给定的值不好，所以采用Huber loss优化，因为该函数对不精确的标签不敏感。
对于grasp，由于是否抓取成功由手指的距离计算得到，所以认为标签精确，采用二值交叉熵函数优化。