本文主要是介绍Value-Based Reinforcement Learning(2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Temporal Difference (TD) Learning
上节已经提到了如果我们有DQN,那么agent就知道每一步动作如何做了,那么DQN如何训练那?这里面使用TD算法。
简略分析:
是的估计
是的估计
所以:
Deep Reinforcement Learning :
Prediction :
TD Target :
Loss :
Gradient Desent : ,做梯度下降是为了让loss减少
这篇关于Value-Based Reinforcement Learning(2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!