深度强化学习算法之SAC算法

本文主要是介绍深度强化学习算法之SAC算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

深度强化学习算法之SAC（Soft Actor Critic）算法

文章地址：
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic Algorithms and Applications

代码地址：
demo1
demo2

参考地址：
BLOG1
BLOG2
BLOG3
BLOG4

1、最大熵强化学习

一般的强化学习的目标是最大化累积奖励：
$\sum_{t} \mathbb{E}_{\left(s_t, a_{t}\right) \sim \rho_{\pi}}\left[r\left(s_{t}, a_{t}\right)\right]$
最大熵强化学习的目标是带熵的累积奖励：
$J(\pi)=\sum_{t=0}^{T} \mathbb{E}_{(s_t, a_t) \sim \rho_{\pi}}\left[r\left(s_{t}, a_{t}\right)+\alpha H\left(\pi\left(\cdot \mid s_{t}\right)\right)\right]$

其中， $\alpha$ 为温度系数，决定熵相对于奖励的重要程度，从而控制策略的随机程度。

entropy可以理解为是一个值，用来衡量一个随机变量的随机性有多强。举个例子，如果对一个硬币出现正反面的变量进行加权，如果总是出现正面，那么这个变量的熵就很小；反之，如果出现正反面的加权值都接近0.5，那么就说明这个变量的熵很大。

假设 $\sim P$ ， $P$ 是一个分布，那么 $x$ 的熵 $H$ 的计算方式为：
$H(P)=\underset{x \sim P}{E_{P}}[-\log P(x)]$

2、从策略迭代到软策略迭代

策略迭代

分成两步：
- 策略评估，更新值函数，用来对策略进行评估
- 策略改进，更新策略，用上一步的值函数来知道策略提高

在这里插入图片描述

如上图所示，不断经过策略评估个策略提高最终找到最优策略。

软策略迭代
- 策略评估
  
  对于一个固定的策略 $\pi$ ，soft Q-value可以用Bellman backup 算子 $\Gamma^{\pi}$ 迭代求出来：
  $\mathcal{T}^{\pi} Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \triangleq r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p}\left[V\left(\mathbf{s}_{t+1}\right)\right]$
  其中，soft state value function 为:
  $V\left(\mathbf{s}_{t}\right)=\mathbb{E}_{\mathbf{a}_{t} \sim \pi}\left[Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right]$
- 策略提高
  
  在实际操作中，我们更希望策略最好可以方便处理。因此我们将策略限定在一个特定集合 $\Pi$ 当中，比如带有参数的高斯分布。为了将策略限定在集合 $\Pi$ 中，我们采用KL散度去投影新的策略：
  $\pi_{\text {new }}=\arg \min _{\pi^{\prime} \in \Pi} D_{K L}\left(\pi^{\prime}\left(\cdot \mid \mathbf{s}_{t}\right) \| \frac{\exp \left(Q^{\pi_{\text {old }}}\left(\mathbf{s}_{t}, \cdot\right)\right)}{Z^{\pi_{\text {old }}}\left(\mathbf{s}_{t}\right)}\right)$

信息熵：可以表达数据的信息量大小
$H(p)=H(X)=\mathrm{E}_{x \sim p(x)}[-\log p(x)]=-\sum_{i=1}^{n} p(x) \log p(x)$
或者
$H(p)=H(X)=\mathrm{E}_{x \sim p(x)}[-\log p(x)]=-\int p(x) \log p(x) d x$
KL散度（相对熵）：表示两个概率分布之间差异的非对称性度量，相对熵等价于两个概率分布的信息熵。
$D_{K L}(p \| q)=\sum_{i=1}^{N}\left[p\left(x_{i}\right) \log p\left(x_{i}\right)-p\left(x_{i}\right) \log q\left(x_{i}\right)\right]$

结合以上两个步骤，最终得到软策略迭代算法，但只适用于离散动作和状态空间，想要处理连续的动作和状态空间，接下来引入SAC算法。

3、SAC算法

Value Network

本来根据上面公式，值函数和Q函数是有关系的，因此我们没有必要去估计值函数，但是在实际操作中发现用单独的网络估计值函数可以稳定训练，它的loss是：
$J_{V}(\psi)=\mathbb{E}_{\mathbf{s}_{t} \sim \mathcal{D}}\left[\frac{1}{2}\left(V_{\psi}\left(\mathbf{s}_{t}\right)-\mathbb{E}_{\mathbf{a}_{t} \sim \pi_{\phi}}\left[Q_{\theta}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi_{\phi}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right]\right)^{2}\right]$

其梯度可以用一个无偏的估计器：
$\hat{\nabla}_{\psi} J_{V}(\psi)=\nabla_{\psi} V_{\psi}\left(\mathbf{s}_{t}\right)\left(V_{\psi}\left(\mathbf{s}_{t}\right)-Q_{\theta}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\log \pi_{\phi}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right)$
其中的动作是从现在的策略中采样而不是replay buffer。

Soft-Q Network

soft Q函数参数可以通过最小化soft Bellman residual来得到：
$J_{Q}(\theta)=\mathbb{E}_{\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \sim \mathcal{D}}\left[\frac{1}{2}\left(Q_{\theta}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\hat{Q}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right)^{2}\right]$

其中， $\hat{Q}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)=r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p}\left[V_{\bar{\psi}}\left(\mathbf{s}_{t+1}\right)\right]$

其中， $V_{\bar{\psi}}$ 是Deep Q Network中的目标值网络(target value network)。Q函数的梯度：
$\hat{\nabla}_{\theta} J_{Q}(\theta)=\nabla_{\theta} Q_{\theta}\left(\mathbf{a}_{t}, \mathbf{s}_{t}\right)\left(Q_{\theta}\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\gamma V_{\bar{\psi}}\left(\mathbf{s}_{t+1}\right)\right)$

Policy Network

策略参数可以通过最小化KL散度来获得：
$J_{\pi}(\phi)=\mathbb{E}_{\mathbf{s}_{t} \sim \mathcal{D}}\left[\mathrm{D}_{\mathrm{KL}}\left(\pi_{\phi}\left(\cdot \mid \mathbf{s}_{t}\right) \| \frac{\exp \left(Q_{\theta}\left(\mathbf{s}_{t}, \cdot\right)\right)}{Z_{\theta}\left(\mathbf{s}_{t}\right)}\right)\right]$

这里我们使用 reparameterization trick来采样动作：
$\mathbf{a}_{t}=f_{\phi}\left(\epsilon_{t} ; \mathbf{s}_{t}\right)$

其中， $\epsilon_{t}$ 为高斯分布， $f$ 是一个关于 $\phi$ 的表达式，整理得到：
$J_{\pi}(\phi)=\mathbb{E}_{\mathbf{s}_{t} \sim \mathcal{D}, \epsilon_{t} \sim \mathcal{N}}\left[\log \pi_{\phi}\left(f_{\phi}\left(\epsilon_{t} ; \mathbf{s}_{t}\right) \mid \mathbf{s}_{t}\right)-Q_{\theta}\left(\mathbf{s}_{t}, f_{\phi}\left(\epsilon_{t} ; \mathbf{s}_{t}\right)\right)\right]$

$\begin{aligned} &\hat{\nabla}_{\phi} J_{\pi}(\phi)=\nabla_{\phi} \log \pi_{\phi}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right) \\ &\quad+\left(\nabla_{\mathbf{a}_{t}} \log \pi_{\phi}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)-\nabla_{\mathbf{a}_{t}} Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right) \nabla_{\phi} f_{\phi}\left(\epsilon_{t} ; \mathbf{s}_{t}\right) \end{aligned}$

4、第二篇文章改进

前面的SAC中，我们只是人为给定一个固定的temperature $\alpha$ 作为entropy的权重，但实际上由于reward的不断变化，采用固定的temperature并不合理，会让整个训练不稳定，因此，有必要能够自动调节这个temperature。当policy探索到新的区域时，最优的action还不清楚，应该调到temperature 去探索更多的空间。当某一个区域已经探索得差不多，最优的action基本确定了，那么这个temperature就可以减小。

构造一个带约束的优化问题，让平均的entropy权重是有限制的，但是在不同的state下entropy的权重是可变的，即
$\max _{\pi_{0: T}} \mathbb{E}_{\rho_{\pi}}\left[\sum_{t=0}^{T} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right] \text { s.t. } \mathbb{E}_{\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \sim \rho_{\pi}}\left[-\log \left(\pi_{t}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right)\right] \geq \mathcal{H} \forall t$

$J(\alpha)=\mathbb{E}_{\mathbf{a}_{t} \sim \pi_{t}}\left[-\alpha \log \pi_{t}\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)-\alpha \overline{\mathcal{H}}\right]$