本文主要是介绍强化学习习题-动态规划策略学习格子问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
题目描述-格子游戏:
每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:
(1)策略估值:使用动态规划方法求当前策略下每一格子对应的状态估值
解:
(2) 策略提升:写出上述估值函数对应的贪心策略
解:
(3)最优策略:求解该问题最优策略及其相应的状态估值
解:
状态不变,最大策略为:
这篇关于强化学习习题-动态规划策略学习格子问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!