tdmpc专题

【强化学习算法】Temporal Difference learning for Model Predictive Control论文(TDMPC)总结

文章目录 TDMPC总结1.model-based & model-free方法1.1 本质区别 1.2 优缺点 2.on-policy & off-policy2.1 定义2.2 优缺点 3.本文Temporal Difference learning for Model Predictive Control3.1 重点要解决什么问题3.2 算法原理3.2.1 预备知识：Model Pr