本文主要是介绍强化学习--DDPG,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
DDPG
强化学习
- DDPG
- DPG
- DDPG
DPG
DQN算法的一个主要缺点就是不能用于连续动作空间,这是因为在DQN算法中动作是通过贪心策略或者说argmax的方式来从Q函数间接得到,这里Q函数就相当于DDPG算法中的Critic。
而要想适配连续动作空间,我们干脆就将选择动作的过程变成一个直接从状态映射到具体动作的函数。
DDPG
在DPG算法 的基础上,再结合一些技巧,就是DDPG算法了,这些技巧既包括DQN算法中也用到的目标网络、经验回放等,也包括引入噪声来增加策略的探索性。
不知道读者有没有发现,在强化学习基础算法的研究改进当中,基本无外乎几个亘古不变的主题:首先是如何提高对值函数的估计,保证其准确性,即尽量无偏且低方差;其次是如何提高探索以及平衡探索-利用的问题,尤其在探索性比较差的确定性策略中。
这篇关于强化学习--DDPG的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!