首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
224r专题
Stanford斯坦福 CS 224R: 深度强化学习 (3)
基于模型的强化学习 强化学习(RL)旨在让智能体通过与环境互动来学习最优策略,从而最大化累积奖励。传统的强化学习方法如Q-learning、策略梯度等,通过大量的试错来学习值函数或策略,样本效率较低。而基于模型的强化学习(MBRL)则利用对环境的预测模型来加速学习过程,大大提高了样本利用率。本章我们将系统地介绍MBRL的基本原理、核心算法、实现技巧以及代表性应用。 1. 采样优化入门 在探讨
阅读更多...
Stanford斯坦福 CS 224R: 深度强化学习 (5)
离线强化学习:第一部分 强化学习(RL)旨在让智能体通过与环境交互来学习最优策略,从而最大化累积奖励。传统的RL训练都是在线(online)进行的,即智能体在训练过程中不断与环境交互,实时生成新的状态-动作数据,并基于新数据来更新策略。这种在线学习虽然简单直观,但也存在一些局限性: 在线交互的样本效率较低,许多采集到的数据未被充分利用对于一些高风险场景(如自动驾驶),在线探索可能会带来安全隐患
阅读更多...