Actor-critic学习笔记-李宏毅

本文主要是介绍Actor-critic学习笔记-李宏毅，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Policy Gradient review
$\nabla \overline{R}_\theta = \frac{1}{N}\sum_{n = 1}^{N}\sum_{t = 1}^{T_n}(\sum_{t'=t}^{T_n}\gamma^{t'-t}r_{t'}^n-b)\nabla\log p_\theta(a_t^n|s_t^n)$
问题是其中 $G^n_t = \sum_{t'=t}^{T_n}\gamma^{t'-t}r_{t'}^n$ 不稳定，需要打样采样才可以得到期望值；
Q-Learning review
State value function： $V^\pi(s)$
State-action value function： $Q^\pi(s,a)$
Action-Critic

如何直接获得 $G^n_t = \sum_{t'=t}^{T_n}\gamma^{t'-t}r_{t'}^n$ 的期望值： $E[G^n_t] = Q^{\pi_\theta}(s_t^n,a^n_t)$ ，求期望值就是学习Q function，b一般取值为 $V^{\pi_\theta}(s_t^n)$ ；
按照上面的方式计算的话要同时计算 $Q, V$ ，如何能值估一个Network，借助的式子是 $Q^\pi(s_t^n,a_t^n) = E[r_t^n+V^\pi(s_{t + 1}^n)]=r_t^n+V^\pi(s_{t + 1}^n)$ ，也就是在 $s_t$ 的时候获得 $r_t^n$ 之后转到state $s_{t + 1}$ ，这样上式从 $Q^{\pi}(s_t^n,a^n_t)-V^\pi(s_t^n)\rightarrow r_t^n + V^\pi(s_{t + 1}^n)-V^\pi(s_t^n)$ ，现在就可以只用估计V function；
总结一下 $\nabla \overline{R}_\theta = \frac{1}{N}\sum_{n = 1}^{N}\sum_{t = 1}^{T_n}(r_t^n + V^\pi(s_{t + 1}^n)-V^\pi(s_t^n))\nabla\log p_\theta(a_t^n|s_t^n)$ ，现在训练流程，首先有一个policy，然后和环境互动收集数据，然后首先estimate V function，之后有了 $V^\pi(s)$ ，然后就可以更新actor，这样的流程不断重复；
Tip1：policy的Network $\pi(s)$ 和critic的Network $V^\pi(s)$ 可以共享部分参数，因为都是输入state $s$ ；
Tip2：也需要exploration，希望不同action的概率平均一点，以可以有概率尝试不同的action，更大的cross entropy；