本文主要是介绍Policy-Based Reinforcement Learning(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
之前提到过Discount Return:
Action-value Function :
State-value Function:
(这里将action A积分掉)这里如果策略函数很好,就会很大;反之策略函数不好,就会很小。
对于离散类型:
用神经网络近似策略,
即 学习参数,使得越来越大。这里使用梯度上升的方法,对于一个可观测状态s,更新
这里称为策略梯度(Policy Gradient)
这篇关于Policy-Based Reinforcement Learning(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!