本文主要是介绍Stable Baselines/用户向导/RL算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档,水平有限,如有错误万望指正
下面这个表格展示了stable baselines项目中采用的所有RL算法及其重要特征:迭代策略、离散/连续行动、多线程
Name | Refactored [1] | Recurrent | Box | Discrete | Multi Processing |
---|---|---|---|---|---|
A2C | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
ACER | ✔️ | ✔️ | ❌ [4] | ✔️ | ✔️ |
ACKTR | ✔️ | ✔️ | ❌ [4] | ✔️ | ✔️ |
DDPG | ✔️ | ❌ | ✔️ | ❌ | ✔️ [3] |
DQN | ✔️ | ❌ | ❌ | ✔️ | ❌ |
HER | ✔️ | ❌ | ✔️ | ✔️ | ❌ |
GAIL [2] | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ [3] |
PPO1 | ✔️ | ❌ | ✔️ | ✔️ | ✔️ [3] |
PPO2 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
SAC | ✔️ | ❌ | ✔️ | ❌ | ❌ |
TD3 | ✔️ | ❌ | ✔️ | ❌ | ❌ |
TRPO | ✔️ | ❌ | ✔️ | ✔ | ✔️ [3] |
[1] 是否重构以适应BaseRLModel
类
[2] 只用于TRPO
[3] (1,2,3,4)用MPI实现多重处理
[4] 在项目范围内,(1,2)必做
目前任何算法都不支持类似
Dict
或Tuple
这种非数组空间,除非HER
与gym.GoalEnv
一起用,此时会支持Dict
各类行动gym.spaces
:
Box
: 一个包含行动空间中每个点的N维盒子Discrete
: 一组可能的行动,每个时间步中只会采用一个MultiDiscrete
: 一组可能的行动,每个时间步每个离散集中只有一个行动被采用MultiBinary
: 一组可能的行动,每个时间步中任何行动都可能以任何结合方式使用
这篇关于Stable Baselines/用户向导/RL算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!