本文主要是介绍Value-Based Reinforcement Learning(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Action-Value Functions
Discounted Return(未来的reward,由于未来存在不确定性,所以未来的reward 要乘以进行打折)
这里的依赖actions
,和states
这里
Policy Function : ,表达了action的随机性
State Transition : ,表达了转移状态的随机性
由于存在action,和state随机性,现在想消除随机性,可以求的数学期望:
Action-Value Function: ,在当前策略
下,状态
和
的回报
Optimal Action-Value Function :
可以给任意的动作打分,agent可以根据
的打分,做最有利的动作
Deep Q-Network (DQN)
如果我们知道了,那么每一步最好的动作
DQN的目的就是近似,即神经网络
近似
流程如下: ->
(DQN给出) ->
(State Transition) ->
(DQN给出)
->(监督回报,用来训练DQN)
以此类推
这篇关于Value-Based Reinforcement Learning(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!