Reinforcement Learning学习（三）

本文主要是介绍Reinforcement Learning学习（三），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

最近在学习Mujoco环境，学习了一些官方的Tutorials以及开源的Demo，对SB3库的强化学习标准库有了一定的了解，尝试搭建了自己的环境，基于UR5E机械臂，进行了一个避障的任务，同时尝试接入了图像大模型API，做了一些有趣的应用，参考资料如下：

https://mujoco.readthedocs.io/en/stable/overview.html
https://pab47.github.io/mujocopy.html
https://github.com/ian-chuang/Manipulator-Mujoco.git

下面我打算分为原理部分，实验过程，结果展示，后续优化几个方面来展开

原理部分

首先是SB3的强化学习库，就我目前的理解来看，这个库基于gym环境以及其变体gymnasium，能够通过矢量转换方法加快训练速度，虽然比不上isaac gym，但其使用性相较更友好（个人意见），因此这里我就使用了该库进行学习

由于我的任务是机械臂的运动控制，因此我的动作空间是连续的，在这里最好还是使用PPO来作为基座模型，先把实验跑通，后续再尝试进行一些其他的优化

关于PPO的原理，其实之前有接触过了，简单理解就是分为两个策略来同时训练，一个策略和实时环境交互，过数个单位时间再把单位信息和真正的策略进行耦合，这里会用到KL散度以及一些Clip约束和优势函数来显示策略的更新速度和步长，防止策略跨度过大，再者就是一个价值损失：预测价值和真实价值之间的差距，这里我就使用了多层感知机来搭建网络

实验过程

整个实验过程分为以下几步：

环境的搭建，要抓取的目标，奖励的设定，障碍物&相机的配置
模型导入以及训练
重写函数，创建自由移动功能
接入大模型进行位置的设定

环境的一些坐标和物体参数代码如下：

# checkerboard floorself._arena = StandardArena()self._arena._mjcf_model# 定义障碍物的尺寸self.block_size = [0.3, 0.2, 0.2] # 方块的长, 宽, 高self.block1_pos = [-1, .7, 0.35]self.block2_pos = [-1, -.7, 0.35]self.block3_pos = [-1, 0, 0.35]# self.block4_pos = [.8, -.6, 1.5]# 添加方块障碍物block_body = self._arena._mjcf_model.worldbody.add("body", name=f"block1", pos=self.block1_pos)block_body.add("geom", type="box", size=self.block_size, rgba=[0, 0, 1, 1])block_body.add("freejoint") # 添加自由关节block_body = self._arena._mjcf_model.worldbody.add("body", name=f"block2", pos=self.block2_pos)block_body.add("geom", type="box", size=self.block_size, rgba=[0, 0, 0, 1])block_body.add("freejoint") # 添加自由关节block_body = self._arena._mjcf_model.worldbody.add("body", name=f"block3", pos=self.block3_pos)block_body.add("geom", type="box", size=self.block_size, rgba=[1, 1, 1, 1])block_body.add("freejoint") # 添加自由关节# 目标方块self.block_size2 = [0.1, 0.1, 0.1] # 方块的长, 宽, 高# 添加方块障碍物self.block_positions2 = [[.6, .7, 0], # 方块1[-.6,.7, 0], # 方块2[0, .7, 0]]block_body = self._arena