文章目录 马尔可夫决策过程(MDP)在机器学习中应用在机器学习中的引用示例引用: 实例场景:机器人导航MDP的定义:引用示例: 在此基础上更具体的描述,并给出每一步的推断计算过程场景描述:3x3网格中的机器人导航MDP的定义强化学习算法:Q-Learning具体实例与推断计算过程回合1( E p i s o d e 1 Episode 1 Episode1)回合2( E p i s
参考: 周博磊老师的教程Richard S.Sutton 《Reinforce Learning》第3章 符号说明:本文用 S t S_t St 或 s 代表当前时刻 t 的状态, S t + 1 S_{t+1} St+1 或 s’ 代表下一时刻的状态; A t A_t At 或 a 代表当前时刻 t 的动作, A t + 1 A_{t+1} At+1 或 a’ 代表下一时刻的动作
最近因为研究需要,要开始学习机器学习了。之前只是懂些CNN什么的皮毛,对机器学习的整体认识都比较缺乏,后面我会从头开始一点点打基础,正好也用博客把自己的学习历程记录一下,如果有大牛看到博文中有错误,欢迎指正! 正好目前有个智能控制的小项目,我就先从增强学习开始。主要的参考文献是吴恩达的专题论文:Shaping and policy search in Reinf