本文主要是介绍OpenAI Gym 关于CartPole的模拟退火解法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
今天测试OpenAI Gym,然后发现CartPole的最快实现快到离谱,使用Simulated Annealing,也就是SA模拟退火法。效果如下图:
代码地址:模拟退火解CartPole
于是好好研究了一下。
关于模拟退火法
一种最优控制算法,基本思想就是每次找一个邻近的点(解法),如果邻近的点比较优,就接受这个点,但是下一次使用随机有一定概率继续选择新的邻近的点,从而避免局部最优,从而通过多次测试达到全局最优。
比较清楚的介绍详见:大白话解析模拟退火算法
如何将模拟退火法SA应用到CartPole中?
对于CartPole倒立摆,其控制输出 A
这篇关于OpenAI Gym 关于CartPole的模拟退火解法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!