强化学习第十章：Actor-Critic 方法

本文主要是介绍强化学习第十章：Actor-Critic 方法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

强化学习第十章：Actor-Critic 方法

什么叫Actor-Critic
最简单的AC，QAC(Q Actor-Critic)
优势函数的AC，A2C(Advantage Actor-Critic)
异策略AC，Off-Policy AC
确定性策略梯度，DPG
总结
参考资料

什么叫Actor-Critic

一句话，策略由动作来执行，执行者叫Actor，评价执行好坏的叫Critic(Policy Evaluation)。

最简单的AC，QAC(Q Actor-Critic)

之前的REINFORCE(PG by MC)用的是MC来近似qπ，现在使用另一种方式TD：
在这里插入图片描述
熟悉的Critic，其实就是SARSA算法，Policy Update过程利用当前 wt更新 策略 参数θt ，然后Value Update过程更新wt，之前的 θt用来生成新的数据 ，这两个过程从VU过程开始想可能更好理解。

优势函数的AC，A2C(Advantage Actor-Critic)

最简单的PG说起，

lnx的梯度=x的梯度/x，那么有

可以观察到：

这里的分子是qt(st, at)，有啥改进方向吗？
带基线的PG
qt(st, at)是当前状态动作价值的近似，如果减去一个 偏置项 ，或者说一个参考值，那么对于上面的 比例因子β 来说会 更准确 ，那么这个值是多少呢，如果没有减，那么就相当于0，对于状态动作价值来说，可能会想到的一个参考值就是 状态价值vπ(s) ：

这个值是最优的吗，实际上是次优的，最优的是下边的（计算复杂）：

去掉复杂的计算，就是上面次 次优的基线 ，引入这样一个基线，对于 状态价值函数的近似（状态价值的期望）来说是没影响 的，也就说之前的方法 TD或MC还能用 ，但是能 减少近似的方差 。证明在赵老师书的P226。
优势函数

这个为啥叫优势函数，当前的状态动作价值都大于状态价值的，该动作相对来说比较有优势，鼓励该动作，反之，抑制。
对于这个优势函数，求期望可以得到：

那就可以将优势函数近似为TD-Error，熟悉的感觉来了：

伪代码(多了个优势函数的计算过程)：

异策略AC，Off-Policy AC

异策略，行为策略和更新的不是一个，就叫异策略，那么更新的策略就是之前的，那行为策略是谁，是β：
在这里插入图片描述
用给定策略β的采样来更新π的参数，为啥要这样做，这样做对吗。在有些 离线强化学习 情况下， 不能实时交互产生数据 ，这个时候就要用到这种方法，很明显 预采集 的数据的策略和 当前策略 是 不一样 的，不能直接使用，需要乘以一个比例，代表之前采集到的数据对于当前策略更新的重要程度，这样就能使用了，但实际上两个策略之间的差距不能太大，后面的PPO会解决这个问题。
关于重要性采样的进一步理解：
在这里插入图片描述
具体比值的理解：

确定性策略梯度，DPG

到目前为止，学习了PG，AC这些 在线策略算法 ，样本效率（sample efficiency）比较低，当然，DQN和A2C也可以 离线学习 ，但是只能处理 动作离散 的情况，如果 本身连续 再 进行离散 以适应算法，无法适应精确度要求高的任务，那么有没有 离线的，能处理连续动作空间 任务的算法呢，有那就是DPG。
假设给一个策略，输入状态，输出直接就是动作。
在这里插入图片描述
那DPG算法的优化函数是什么呢，跟PG一样，分析：

平均状态价值Average value

这里的s的分布同样可能与策略相关(马尔科夫链平稳分布)或无关(固定值，只关心一些或某个状态)
平均即时奖励 Average reward

经过求解两种评价的梯度，P236开始证明：

OK，梯度有了，梯度上升迭代式：

最终的伪代码（如果里面的qsa用神经网络来近似，那么就是DDPG）：