强化学习的数学原理学习笔记

本文主要是介绍强化学习的数学原理学习笔记 - Actor-Critic，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

概览：RL方法分类
Actor-Critic
- Basic actor-critic / QAC
- 🟦A2C (Advantage actor-critic)
- Off-policy AC
- - 🟡重要性采样（Importance Sampling）
  - Off-policy PG
  - Off-policy AC
- 🟦DPG (Deterministic AC)

本系列文章介绍强化学习基础知识与经典算法原理，大部分内容来自西湖大学赵世钰老师的强化学习的数学原理课程（参考资料1），并参考了部分参考资料2、3的内容进行补充。

系列博文索引：

强化学习的数学原理学习笔记 - RL基础知识
强化学习的数学原理学习笔记 - 基于模型（Model-based）
强化学习的数学原理学习笔记 - 蒙特卡洛方法（Monte Carlo）
强化学习的数学原理学习笔记 - 时序差分学习（Temporal Difference）
强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）
强化学习的数学原理学习笔记 - 策略梯度（Policy Gradient）
强化学习的数学原理学习笔记 - Actor-Critic

参考资料：

【强化学习的数学原理】课程：从零开始到透彻理解（完结）（主要）
Sutton & Barto Book: Reinforcement Learning: An Introduction
机器学习笔记

*注：【】内文字为个人想法，不一定准确

概览：RL方法分类

*图源：https://zhuanlan.zhihu.com/p/36494307

Actor-Critic

Actor-Critic属于策略梯度（PG）方法，实际上是将值函数近似和策略梯度方法进行了结合。

Actor：策略更新，Actor用来执行动作与环境交互
Critic：策略评估 / 值估计，Critic用来评估Actor的好坏

Basic actor-critic / QAC

与策略梯度算法对应，Actor即为策略梯度算法中执行策略更新的部分（通过更新参数 $\theta$ ），而Critic是估计 $q_t(s_t,a_t)$ 的算法。QAC（Q actor-critic）是最简单的actor-critic算法，也是一种on-policy方法。

QAC vs. REINFOCE：估计 $q_t(s_t,a_t)$ 的方法不同

REINFORCE：蒙特卡洛（MC）
QAC：时序差分（TD）

QAC算法：【简单理解：QAC = Sarsa with function estimation + Policy Gradient】

Critic（值更新 / 策略评估）：采用Sarsa with function estimation的方法估计 $q_t(s_t,a_t)$
- $w_{t+1} = w_t + \alpha_w [r_{t+1} + \gamma {q}(s_{t+1}, a_{t+1}, w_t) - {\color{blue} {q}(s_t, a_t, w_t)}] {\color{blue} \nabla_w {q}(s_t, a_t, w_t)}$
Actor（策略更新 / 策略提升）：采用策略梯度（PG）的方法（同REINFROCE）更新策略
- $\theta_{t+1} = \theta_t + \alpha_\theta \nabla_\theta \ln\pi (a_t|s_t, \theta_t) {\color{blue} q_t(s_t, a_t, w_{t+1}) }$

🟦A2C (Advantage actor-critic)

A2C的基本思想：在QAC中引入baseline来减少估计的方差（variance）。

理论基础：引入baseline $b (S)$ 后，策略梯度（期望）不会发生改变，但其方差会减小（推导略），即 $\nabla_\theta J (\theta) = \mathbb{E}_{S\sim\eta,A\sim\pi} [\nabla_\theta \ln\pi (A|S, \theta) q_\pi(S, A) ] = \mathbb{E}_{S\sim\eta,A\sim\pi} [\nabla_\theta \ln\pi (A|S, \theta) (q_\pi(S, A) {\color{blue} - b(S))} ]$ 其中， $b (S)$ 为关于 $S$ 的标量函数。
使得方差最小的最优baseline形式为： $b^*(s) = \frac{ \mathbb{E}_{A\sim\pi} [ {\color{blue} \| \nabla_\theta \ln\pi (A|s, \theta_t) \|^2} {\color{red} q(S,A)} ] }{ \mathbb{E}_{A\sim\pi} [ {\color{blue} \| \nabla_\theta \ln\pi (A|s, \theta_t) \|^2} ] }$
但直接应用此式过于复杂，因此在实际中选择次优baseline，去掉权重项 $\| \nabla_\theta \ln\pi (A|s, \theta_t) \|^2$ ，有： $\mathbb{E}_{A\sim\pi} [q(S,A)] = v_\pi(s)$
即将 $s$ 的状态值作为baseline。

在actor（策略更新）中引入状态值作为baseline，即：
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha \mathbb{E} \Big[ \nabla_\theta \ln\pi (A|S, \theta_t) [{\color{blue} q_\pi(S, A) - v_\pi (S)}] \Big] \\ &= \theta_t + \alpha \mathbb{E} \Big[ \nabla_\theta \ln\pi (A|S, \theta_t) {\color{blue} \delta_\pi(S, A)} \Big] \end{aligned}$
其中， $\delta_\pi(S, A) = q_\pi(S, A) - v_\pi (S)$ 是优势函数（advantage function），表示当前状态下的特定动作相对于当前策略的优势。对应的随机采样公式为：
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha \nabla_\theta \ln\pi (a_t|s_t, \theta_t) [ {\color{blue} q_t(s_t, a_t) - v_t(s_t)} ] \\ &= \theta_t + \alpha \nabla_\theta \ln\pi (a_t|s_t, \theta_t) {\color{blue} \delta_t(s_t, a_t)} \end{aligned}$
进一步地，优势函数可以由TD error近似（推导略），好处是只需要一个神经网络近似 $v_t$ 即可，不需要再近似 $q_t$ 。这就是A2C（也称为TD actor-critic）算法，其优势函数的具体形式为：
$\delta_t = r_{t+1} + \gamma v_{t} (s_{t+1}) - v_t (s_t)$
*注：

优势函数在文献中通常记作 $A$
这里的直觉是，动作值的相对值比其绝对值更重要

A2C的完整算法（on-policy）：

TD error（优势函数）： ${\color{darkred} \delta_t} = r_{t+1} + \gamma v_{t} (s_{t+1}) - v_t (s_t)$
Critic（值更新 / 策略评估）： $w_{t+1} = w_t + \alpha_w {\color{darkred} \delta_t} {\nabla_w {v}(s_t, w_t)}$
- *注意这里与QAC的区别：QAC用的是Sarsa，A2C用的是TD，因此这里用状态值而非动作值
Actor（策略更新 / 策略提升）： $\theta_{t+1} = \theta_t + \alpha_\theta {\color{darkred} \delta_t} \nabla_\theta \ln\pi (a_t|s_t, \theta_t)$

Off-policy AC

AC算法本身是on-policy的，但是可以通过重要性采样（Importance Sampling） 将其转为off-policy算法。
*实际上，重要性采样可以应用于任何需要求期望的算法（如MC、TD等）。

🟡重要性采样（Importance Sampling）

重要性采样：基于概率分布 $p_1$ 上对随机变量 $X$ 的采样，估计概率分布 $p_0$ 上 $X$ 的期望 $\mathbb{E}[X]$ 。
*应用场景：难以直接在 $p_0$ 上计算 $X$ 的期望，但可以很容易在 $p_1$ 上对进行 $X$ 采样。例如： $p_0$ 是连续分布，或 $p_0$ 的形式未知（如其为神经网络）。

${\color{red} \mathbb{E}_{X\sim p_0} [X] } = \sum_x p_0(x) x = \sum_x {\color{blue} p_1(x)} \underbrace{\frac{p_0(x)}{\color{blue} p_1(x)} x}_{f(x)} = {\color{red} \mathbb{E}_{X\sim p_1} [f (X)] }$
其中， $\mathbb{E}_{X\sim p_1} [f (X)]$ 可以由对 $f (X)$ 的采样均值直接估计（大数定律），即：
${\color{red} \mathbb{E}_{X\sim p_0} [X] } \approx \bar{f} = \frac{1}{n} \sum_{i=1}^{n} f(x_i) {\color{red} = \frac{1}{n} \sum_{i=1}^{n} {\color{blue} \frac{p_0(x_i)}{p_1(x_i)} } x_i }$
其中， $\frac{p_0(x_i)}{p_1(x_i)}$ 是重要性权重（importance weight），其大于1表明 $x_i$ 在 $p_0$ 下被采样的概率更高，小于1表明在 $p_1$ 下被采样的概率更高。

Off-policy PG

由行为策略 $\beta$ 生成经验采样，目标是最大化下式：
$J(\theta) = \sum_{s \in \mathcal{S}} d_\beta (s) v_\pi (s) = \mathbb{E}_{S \sim d_\beta} [v_\pi (S)]$
其中， $d_\beta$ 为策略 $\beta$ 下的平稳分布。（*注意此式与策略梯度中 $J(\theta)$ 为平均状态值 $\bar{v}_\pi$ 时公式的区别）
对应的梯度为：
$\nabla_\theta J(\theta) = \mathbb{E}_{S \sim \rho, A \sim \beta} \Big[ \frac{\pi(A|S, \theta)}{\beta(A|S)} \nabla_\theta \ln \pi (A|S, \theta) q_\pi (S, A) \Big]$
式中 $\rho$ 是一个状态分布， $\frac{\pi(A|S, \theta)}{\beta(A|S)}$ 是重要性权重。注意 $\sim \beta$ 而非 $\sim \pi$ 。

Off-policy AC

基于前文分析，Off-policy AC的算法为：
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha_\theta \frac{\pi(a_t|s_t, \theta_t)}{\beta(a_t|s_t)} \nabla_\theta \ln\pi (a_t|s_t, \theta_t) [ {r_{t+1} + \gamma v_{t} (s_{t+1}) - v_t (s_t)} ] \\ &= \theta_t + \alpha_\theta \frac{\pi(a_t|s_t, \theta_t)}{\beta(a_t|s_t)} \nabla_\theta \ln\pi (a_t|s_t, \theta_t) {\delta_t(s_t, a_t)} \end{aligned}$

算法步骤及伪代码类似于A2C，主要是多了重要性权重 $\frac{\pi(a_t|s_t, \theta_t)}{\beta(a_t|s_t)}$ 。

🟦DPG (Deterministic AC)

先前的PG及AC算法均为随机性（stochastic）策略，实际上也存在确定性（deterministic）策略的AC算法，即DPG（Deterministic Policy Gradient）。
确定性策略相对于随机性策略的优势：随机性策略只能处理有限个动作的情况（比如，神经网络的输出是有限的），而确定性策略可以处理连续的动作空间。

确定性策略记作： $\mu (s, \theta)$ ，也可以简记为 $\mu (s)$ 。
$\mu$ 是从状态空间 $\mathcal{S}$ 到动作空间 $\mathcal{A}$ 的映射，可以由神经网络表示。

DPG为off-policy方法（动作不依赖于具体策略），其梯度计算如下：
$\begin{aligned} \nabla_\theta J (\theta) &= \sum_{s \in \mathcal{S}} \rho_\mu (s) \nabla_\theta \mu(s) (\nabla_a q_\mu (s, a)) |_{a = \mu (s)} \\ & = \mathbb{E}_{S \sim \rho_\mu} [\nabla_\theta \mu(s) (\nabla_a q_\mu (s, a)) |_{a = \mu (s)}] \end{aligned}$
其中， $\rho_\mu$ 是一个状态分布。 $(\nabla_a q_\mu (s, a)) |_{a = \mu (s)}$ 表示先对 $q_\mu(s,a)$ 求关于 $a$ 的梯度，再将其中 $a$ 的替换为 $\mu(s)$ 。
对应的随机梯度上升算法为：
$\theta_{t+1} = \theta_t + \alpha_\theta \nabla_\theta \mu(s_t) (\nabla_a q_\mu (s_t, a)) |_{a=\mu(s)}$

DPG算法步骤（伪代码）：
初始化：行为策略 $\beta (a|s)$ ；确定性目标策略 $\mu(s, \theta_0)$ ，其中 $\theta_0$ 为初始参数向量；值函数 $v(s, w_0)$ ，其中 $w_0$ 为初始参数向量。(* $\beta$ 也可以被替换为 $\mu$ +噪音)

目标：最大化 $J(\theta)$
步骤：在每个episode的第 $t$ 个时间步中，遵循行为策略 $\beta$ 产生动作 $a_t$ 并获得 $r_{t+1}$ 和 $s_{t+1}$

TD error（优势函数）： ${\color{darkred} \delta_t} = r_{t+1} + \gamma q(s_{t+1}, \mu(s_{t+1}, \theta_t), w_t) - q(s_t, a_t, w_t)$
Critic（值更新 / 策略评估）： $w_{t+1} = w_t + \alpha_w {\color{darkred} \delta_t} \nabla_w q(s_t, a_t, w_t)$ ，即TD+值函数估计
Actor（策略更新 / 策略提升）： $\theta_{t+1} = \theta_t + \alpha_\theta \nabla_\theta \mu(s_t, \theta_t) (\nabla_a q (s_t, a, w_{t+1})) |_{a=\mu(s_t)}$