首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
评论员专题
李宏毅深度强化学习导论——演员-评论员
引言 本文主要介绍演员-评论员(Actor-Critic)算法。 Critic 给定Actor θ \theta θ,Critic评估当观测到 s s s(或进一步地采取行动 a a a)的好坏。 价值函数(Value function),记为 V θ ( s ) V^\theta(s) Vθ(s),就是一种Critic。 它的输入是现在的游戏画面,这里的上标 θ \theta
阅读更多...