【RL】Temporal-Difference Learning（时序差分方法）

本文主要是介绍【RL】Temporal-Difference Learning（时序差分方法），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Lecture 7: Temporal-Difference Learning

TD learning of state values

TD learning通常指的是一大类 RL 算法

TD学习也指用于估计state value的特定算法。

TD learning of state values – Algorithm description

算法中需要的data/experience：

$(s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, \cdots)$ 或由给定的policy $\pi$ 生成的 ${ (s_t, r_{t+1}), s_{t+1} \}$ 。

TD learning算法为：
$\begin{align*} &v_{t+1}(s_t)=v_t(s_t)-\alpha_t(s_t)\Big[v_t(s_t)-[r_{t+1}+\gamma v_t(s_{t+1})]\Big], \;\;\;\;\; (1) \\ &v_{t+1}(s)=v_t(s),\quad\forall s\neq s_t, \;\;\;\;\; (2) \end{align*}$
其中， $\cdots$ ， $v_t(s_t)$ 是针对 $v_{\pi}(s_t)$ 的估计的state value， $\alpha_t(s_t)$ 是在时间 $t$ $s_t$ 的 learning rate（学习率）。

在时间 $t$ ，仅更新已访问状态 $s_t$ 的值，而未访问状态 $\ne s_t$ 的值保持不变。

TD learning of state values – Algorithm properties

TD算法可以表示为:
$\underbrace{v_{t+1}(s_t)}_{\text{new estimate}}=\underbrace{v_t(s_t)}_{\text{current estimate}}-\alpha_t(s_t)[\overbrace{v_t(s_t)-[\underbrace{r_{t+1}+\gamma v_t(s_{t+1})}_{\text{TD target }\bar{v}_t}]}^{\text{TD error } \delta_t}, \;\;\;\;\;(3)$
其中：
$\overline{v} \doteq r_{t+1} + \gamma v(s_t + 1)$
被称为TD target；
$\delta_t\doteq v(s_t)-[r_{t+1}+\gamma v(s_{t+1})]=v(s_t)-\bar{v}_t$
被称为 TD error；

很明显，新的估计 $v_{t+1}(s_t)$ 是当前估计 $v_t(s_t)$ 和 TD error的加权组合。

why is $\overline{v}_t$ called the TD target?

这是因为算法使 $v(s_t)$ 趋向于 $\overline{v}_t$

如下式：
$\begin{align*} &v_{t+1}(s_t)=v_t(s_t)-\alpha_t(s_t)[v_t(s_t)-\bar{v}_t] \\ \Rightarrow &v_{t+1}(s_t)-\bar{v}_t=v_t(s_t)-\bar{v}_t-\alpha_t(s_t)[v_t(s_t)-\bar{v}_t] \\ \Rightarrow &v_{t+1}(s_{t})-\bar{v}_{t}=[1-\alpha_{t}(s_{t})][v_{t}(s_{t})-\bar{v}_{t}] \\ \Rightarrow & |v_{t+1}(s_{t})-\bar{v}_{t}|=|1-\alpha_{t}(s_{t})||v_{t}(s_{t})-\bar{v}_{t}| \end{align*}$
因为 $\alpha_t({s_t})$ 是一个小的正数，故:
$1-\alpha_(s_t) < 1$
因此，
$|v_{t + 1}(s_t) - \bar{v}_t| \le |v_(s_t) - \bar{v}_t|$
因此， $v(s_t)$ 不断趋向于 $\bar{v}_t$ 。

what is the interpretation of the TD error?
$\delta_t=v(s_t)-[r_{t+1}+\gamma v(s_{t+1})]$
它是两个后续时间步长之间的差异。

其反映了 $v_t$ 和 $v_{\pi}$ 之间的不足。如下式：
$\delta_{\pi,t}\doteq v_\pi(s_t)-[r_{t+1}+\gamma v_\pi(s_{t+1})]$
注意：
$\mathbb{E}[\delta_{\pi,t}|S_t=s_t]=v_\pi(s_t)-\mathbb{E}\big[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s_t\big]=0.$

如果 $v_t = v_{\pi}$ ，那么 $\delta_t$ 应该为0
因此，若 $\delta_t$ 非0，那么 $v_t$ 不等于 $v_{\pi}$

TD error可以理解为“创新”，即从experience（经验）中获得新的信息 $s_t,r_{t+1},s_{t+1})$ 。

等式（3）仅估计了给定policy的state value。

其没有估计action value
其没有搜索最优policy

TD learning of state values – The idea of the algorithm

What does this TD algorithm do mathematically?

它求解给定policy $\pi$ 的Bellman方程。

第一，Bellman方程的新表达式。

policy $\pi$ 的state value的定义为：
$v_{\pi}(s)=\mathbb{E}\big[R+\gamma G|S=s\big],\quad s\in\mathcal{S} \;\;\;\;\; (4)$
其中， $G$ 使离散的return。因为：
$\mathbb{E}[G|S=s]=\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})=\mathbb{E}[v_\pi(S^{\prime})|S=s],$
其中， $S^{'}$ 是下一个state，因此等式（4）可以写为：
$v_\pi(s)=\mathbb{E}\big[R+\gamma v_\pi(S')|S=s\big],\quad s\in\mathcal{S}. \;\;\;\;\; (5)$
等式（5）是Bellman等式的另一种表达，其也被称为Bellman expectation equation。

第二，使用RM算法解决等式（5）

定义：
$g(v(s))=v(s)-\mathbb{E}\big[R+\gamma v_{\pi}(S^{\prime})|s\big],$
公式（5）可以写为：
$g (v (s)) = 0$
由于我们只能获得 $R$ 和 $S^{'}$ 的样本 $r$ 和 $s^{'}$ ，因此我们得到的噪声观测值是:
$\begin{aligned} \tilde{g}(v(s))& =v(s)-\begin{bmatrix}r+\gamma v_\pi(s')\end{bmatrix} \\ &=\underbrace{\left(v(s)-\mathbb{E}\big[R+\gamma v_\pi(S')|s\big]\right)}_{g(v(s))}+\underbrace{\left(\mathbb{E}\big[R+\gamma v_\pi(S')|s]-\big[r+\gamma v_\pi(s')\big]\right)}_{\eta}. \\ \end{aligned}$
因此，为了计算 $g (v (s))$ ，RM算法为：
$\begin{align*} v_{k+1}(s) =&v_k(s)-\alpha_k\tilde{g}(v_k(s)) \\ =&v_k(s)-\alpha_k\Big(v_k(s)-\big[r_k+\gamma v_\pi(s_k^{\prime})\big]\Big), \end{align*} \;\;\; k=1, 2, 3, \cdots \;\;\;\;\; (6)$
其中， $v_k(s)$ 是 $v_{\pi}(s)$ 在第 $k$ 步的估计； $r_k, s'_k$ 是在第 $k$ 步中在 $R, S^{'}$ 中的样本。

公式（6）中的RM算法有两个假设需要特别注意：

必须要有experience集合 $\{ (s, r, s') \}, k=1, 2, 3, \dots$
假设对于任意 $s^{'}$ ， $v_{\pi}(s')$ 已知

为了在RM算法中移除这两个假设，可以将其修改为：

将 ${(s, r, s')\}$ 更改为 ${(s_t, r_{t+1}, s_{t+1})}$ ，以便算法可以利用episode中的连续样本。
$v_{\pi}(s')$ 被它的估计值取代，因为事先不知道它。

Theorem (Convergence of TD Learning)

By the TD algorithm (1), $v_t(s)$ converges with probability 1 to $v_{\pi}(s)$ for all $\in S$ as $\rightarrow \infty$ if $\sum_t \alpha_t(s) = \infty$ and $\sum_t \alpha_t^2(s) < \infty$ for all $\in S$ .

该定理表示，对于给定的policy $\pi$ ，可以通过 TD 算法找到state value
$\sum_t \alpha_t(s) = \infty$ 和 $\sum_t \alpha_t^2(s) < \infty$ 必须对所有 $\in S$ 都满足。在时间步 $t$ ，如果 $s = s_t$ ，这意味着 $s$ 在时间 $t$ 被访问，则 $\alpha_t(s) > 0$ ；否则，对于所有其他 $\ne st$ ， $\alpha_t(s) = 0$ 。这要求每个state必须被访问无限（或足够多）次。
学习率 $\alpha$ 通常被选为一个小的常数。此时， $\sum_t \alpha_t^2(s) < \infty$ 的条件不再成立。当 $\alpha$ 一定时，仍然可以证明算法在期望意义上收敛。

算法比较：

TD/Sarsa learning	MC learning
Online: TD learning是online的。它可以在收到reward后立即更新state/action value。	offline: MC learning是offline的。它必须等到一个episode完全收集完毕。
Continuing tasks：由于TD学习是online的，因此它可以处理episodic任务和连续任务。	Episodic任务：由于MC学习是离线的，它只能处理具有终止状态的episodic任务。
Bootstrapping: TD bootstraps是因为值的更新依赖于该值的先前估计。因此，它需要初始猜测。	Non-bootstrapping: MC不是bootstrapping，因为它可以无需任何初始猜测即可估计state/action value。
低估计方差：TD 比 MC 低，因为随机变量较少。例如，Sarsa 需要 $R_{t+1}、S_{t+1}、A_{t+1}$ 。	高估计方差：为了估计 $q_{\pi}(s_t, a_t)$ ，需要 $R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots$ 样本。假设每个episode的长度为 $L$ 。有$

TD learning of action values: Sarsa

Sarsa – Algorithm

上一节介绍的TD算法只能估计state value。
接下来将介绍Sarsa，一个可以直接估计state value的算法。

首先，我们的目标是估计给定policy $\pi$ 的action value。假设有一些经验 ${(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1})\}_t$ 。那么可以使用以下 Sarsa 算法来估计动作值：
$\begin{aligned}q_{t+1}(s_t,a_t)&=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\Big[q_t(s_t,a_t)-[r_{t+1}+\gamma q_t(s_{t+1},a_{t+1})]\Big],\\q_{t+1}(s,a)&=q_t(s,a),\quad\forall(s,a)\neq(s_t,a_t),\end{aligned}$
其中： $\cdots$

$q_t(s_t, a_t)$ 是 $q_{\pi}(s_t, a_t)$ 的估计值
$\alpha_t(s_t, a_t)$ 是依赖于 $s_t, a_t$ 的学习率。

Why is this algorithm called Sarsa?

因为算法的每一步都涉及 $s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1})$ 。 Sarsa 是state-action-reward-state-action的缩写。

What is the relationship between Sarsa and the previous TD learning algorithm?

可以通过将TD算法中的state value估计 $v (s)$ 替换为action value估计 $q (s, a)$ 来获得Sarsa。因此，Sarsa 是 TD 算法的action-value版。

What does the Sarsa algorithm do mathematically?

Sarsa 的表达式表明其是求解以下方程的随机近似算法：
$q_{\pi}(s,a)=\mathbb{E}\left[R+\gamma q_{\pi}(S^{\prime},A^{\prime})|s,a\right],\quad\forall s,a.$
这是Bellman方程的另一种以action value表示的表达式。

Theorem (Convergence of Sarsa learning)

By the e Sarsa algorithm, $q_t(s, a)$ converges with probability 1 to action value $q_{\pi}(s, a)$ as $\rightarrow \infty$ for all $(s, a)$ if $\sum_t \alpha_t(s) = \infty$ and $\sum_t \alpha_t^2(s) < \infty$ for all $(s, a)$ .

该定理表明，对于给定的policy $\pi$ ，Sarsa 可以找到action value。

Sarsa – Implementation

强化学习的最终目标是找到最优policy。
为此，可以将 Sarsa 与policy improvement步骤结合起来。组合算法也称为 Sarsa。

在这里插入图片描述

$s_t$ 的policy在 $q(s_t, a_t)$ 更新后立即更新。这是基于广义policy迭代的思想。
政策是 $\varepsilon$ -greedy而不是贪心，以很好地平衡开采（exploitation）和探索（exploration）。
核心思想很简单：就是用一种算法来求解给定policy的Bellman方程。

Sarsa – Examples

$r_{\text{target}} = 0, r_{\text{forbidden}} = r_{\text{boundary}} = -10$ ， $r_{\text{other}} = -1$ ，学习率 $\alpha = 0.1$ ， $\varepsilon = 0.1$

在这里插入图片描述

如上图左：并非所有state都有最优policy

如上图右：每episode总reward的指标将被频繁使用。

TD learning of action values: Expected Sarsa

Sarsa 的一个变体是 Expected Sarsa 算法：
$\begin{aligned} q_{t+1}(s_{t},a_{t})& =q_t(s_t,a_t)-\alpha_t(s_t,a_t)\Big[q_t(s_t,a_t)-(r_{t+1}+\gamma\mathbb{E}[q_t(s_{t+1},A)])\Big], \\ q_{t+1}(s,a)& =q_t(s,a),\quad\forall(s,a)\neq(s_t,a_t), \end{aligned}$
其中，
$\mathbb{E}[q_t(s_{t+1},A)])=\sum_a\pi_t(a|s_{t+1})q_t(s_{t+1},a)\doteq v_t(s_{t+1})$
是policy $\pi_t$ 下 $q_t(s_{t+1}, a)$ 的期望值。

与Sarsa比较：

TD target 从 Sarsa 中的 $r_{t+1} + \gamma q_t(s_{t+1}, a_{t+1})$ 更改为 Expected Sarsa 中的 $r_{t+1}+\gamma\mathbb{E}[q_t(s_{t+1},A)]$ 。
需要更多的计算。但从减少估计方差的意义上来说，它是有益的，因为它将 Sarsa 中的随机变量从 ${s_t,a_t,r_{t+1},s_{t+1},a_{t+1}\}$ 减少到 ${s_t,a_t,r_{t+1},s_{t+1}\}$ 。

What does the algorithm do mathematically?

Expected Sarsa 是一种随机近似算法，用于求解以下方程:
$q_{\pi}(s,a)=\mathbb{E}\Big[R_{t+1}+\gamma\mathbb{E}_{A_{t+1}\sim\pi(S_{t+1})}[q_{\pi}(S_{t+1},A_{t+1})]\Big|S_{t}=s,A_{t}=a\Big],\quad\forall s,a.$
上式是Bellman方程的另一种表达：
$q_\pi(s,a)=\mathbb{E}\Big[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s,A_t=a\Big]$

TD learning of action values: n-step Sarsa

$n$ -step Sarsa：可以统一 Sarsa 和 Monte Carlo learning

action value的定义为：
$q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a].$
discount return $G_t$ 可以写成不同的形式：
$\begin{align*} \text{Sarsa} \longleftarrow G_t^{(1)}&=R_{t+1} + \gamma q_\pi(S_{t+1},A_{t+1}),\\ G_t^{(2)}&=R_{t+1}+\gamma R_{t+2}+\gamma^2q_\pi(S_{t+2},A_{t+2}),\\ &\vdots \\ n\text{-step Sarsa} \longleftarrow G_t^{(n)}&=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^nq_\pi(S_{t+n},A_{t+n}),\\ &\vdots\\ \text{MC} \longleftarrow G_t^{(\infty)}&=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\ldots \end{align*}$
需要注意的是， $\begin{aligned}G_t=G_t^{(1)}=G_t^{(2)}=G_t^{(n)}=G_t^{(\infty)}\end{aligned}$ ，其中上标仅表示 $G_t$ 的不同分解结构。

Sarsa目的是解决：
$q_{\pi}(s,a)=\mathbb{E}[G_{t}^{(1)}|s,a]=\mathbb{E}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|s,a].$
MC目的是解决：
$q_\pi(s,a)=\mathbb{E}[G_t^{(\infty)}|s,a]=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\ldots|s,a].$
$n$ -step Sarsa 的中间算法目的是解决：
$\begin{aligned}q_\pi(s,a)=\mathbb{E}[G_t^{(n)}|s,a]=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^nq_\pi(S_{t+n},A_{t+n})|s,a].\end{aligned}$
$n$ -step Sarsa 算法目的是解决：
$q_{t+1}(s_t,a_t)=q_t(s_t,a_t) -\alpha_t(s_t,a_t)\Big[q_t(s_t,a_t)-[r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^nq_t(s_{t+n},a_{t+n})]\Big].$
$n$ -step Sarsa 更通用，因为当 $n = 1$ 时它变成（one-step）Sarsa 算法，当 $\infty$ 时它变成 MC learning算法。

$n$ -step Sarsa需要 $(s_t,a_t,r_{t+1},s_{t+1},a_{t+1},\ldots,r_{t+n},s_{t+n},a_{t+n}).$

由于 $r_{t+n}, s_{t+n}, a_{t+n})$ 在时间 $t$ 尚未收集，因此无法在步骤 $t$ 实现 $n$ -step Sarsa。然而，可以等到时间 $t + n$ 来更新 $s_t, a_t)$ 的 q 值：
$\begin{align*} q_{t+n}(s_t,a_t)=&q_{t+n-1}(s_t,a_t)\\&-\alpha_{t+n-1}(s_t,a_t)\Big[q_{t+n-1}(s_t,a_t)-[r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^nq_{t+n-1}(s_{t+n},a_{t+n})]\Big] \end{align*}$
由于 $n$ -step Sarsa 将 Sarsa 和 MC learning作为两种极端情况，因此其性能是 Sarsa 和 MC learning的混合：

如果 $n$ 很大，它的性能接近MC learning，因此方差很大但偏差很小。
如果 $n$ 较小，则其性能接近Sarsa，因此由于初始猜测和相对较低的方差而具有相对较大的偏差。

n-step Sarsa 也用于policy evaluation。它可以与policy improvement步骤相结合来搜索最优policy。

TD learning of optimal action values: Q-learning

Sarsa 可以估计给定policy的action value。它必须与policy improvement步骤相结合才能找到最佳policy。

Q-learning 可以直接估计最优action value，从而估计最优policy。

Q-learning – Algorithm

Q-learning算法为：
$\begin{aligned} q_{t+1}(s_{t},a_{t})& =q_t(s_t,a_t)-\alpha_t(s_t,a_t)\left[q_t(s_t,a_t)-[r_{t+1}+\gamma\max_{a\in\mathcal{A}}q_t(s_{t+1},a)]\right], \\ q_{t+1}(s,a)& =q_t(s,a),\quad\forall(s,a)\neq(s_t,a_t), \end{aligned}$
Q-learning 与 Sarsa 非常相似。它们仅在 TD target方面有所不同：

Q-learning 中的 TD target是: $r_{t+1}+\gamma\max_{a\in\mathcal{A}}q_t(s_{t+1},a)$
Sarsa 中的 TD target是: $r_{t+1}+\gamma q_t(s_{t+1},a_{t+1})$

What does Q-learning do mathematically?

其目的是解决：
$\left.q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma\max_aq(S_{t+1},a)\right|S_t=s,A_t=a\right],\quad\forall s,a.$
这是用action values表示的Bellman最优方程。

Off-policy vs on-policy

在进一步研究Q-learning之前，需要首先介绍两个重要的概念：on-policy learning和off-policy learning。
TD learning任务中存在两种policy：

behavior policy用于生成经验样本
target policy不断更新以达到最优policy

On-policy vs off-policy：

当behavior policy与target policy相同时，这种学习称为on-policy learning。
当不同时，称为off-policy learning。

Advantages of off-policy learning：

它可以根据任何其他policy生成的经验样本来搜索最优policy。

作为一个重要的特例，behavior policy可以选择具有探索性。例如，如果想估计所有state-action对的action value，可以使用探索性policy来生成多次访问每个state-action对的episode。

How to judge if a TD algorithm is on-policy or off-policy?

首先，检查算法在数学上的作用。

其次，检查实现算法需要哪些东西。

Sarsa is on-policy.

首先，Sarsa 的目标是求解给定policy $\pi$ 的Bellman方程：
$q_\pi(s,a)=\mathbb{E}\left[R+\gamma q_\pi(S^{\prime},A^{\prime})|s,a\right],\quad\forall s,a.$
其中， $R\sim p(R|s,a),S^{\prime}\sim p(S^{\prime}|s,a),{A^{\prime}\sim\pi(A^{\prime}|S^{\prime})}.$

其次，算法是:
$q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\Big[q_t(s_t,a_t)-[r_{t+1}+\gamma q_t(s_{t+1},a_{t+1})]\Big],$
需要 $s_t,a_t,r_{t+1},s_{t+1},a_{t+1})$

如果给出 $s_t, a_t)$ ，则 $r_{t+1}$ 和 $s_{t+1}$ 不依赖于任何policy。 $a_{t+1}$ 是根据 $π_t(s_{t+1})$ 生成的。

$\pi_t$ 既是behavior policy又是target policy。

Monte Carlo learning is on-policy.

首先，MC方法目的是计算：
$q_{\pi}(s,a)=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\ldots|S_{t}=s,A_{t}=a\right],\quad\forall s,a.$
其中样本是根据给定policy $\pi$ 生成的。

其次，MC方法的实现是：
$q(s,a)\approx r_{t+1}+\gamma r_{t+2}+\ldots$
action value用于生成样本，样本进一步用于估计policy的action value。基于action value，可以改进policy。

Q-learning is off-policy.

首先，Q-learning旨在求解Bellman最优方程：
$q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma\max_aq(S_{t+1},a)\Big|S_t=s,A_t=a\right],\quad\forall s,a.$
其次，算法为：
$q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\left[q_t(s_t,a_t)-[r_{t+1}+\gamma\max_{a\in\mathcal{A}}q_t(s_{t+1},a)]\right]$
需要 $s_t,a_t,r_{t+1},s_{t+1}).$

根据 $s_t$ 生成 $a_t$ 的behavior policy可以是任何内容。 target policy将收敛于最优policy。

由于 Q-learning是off-policy的，因此它可以既可以以off-policy形式实现也可以以on-policy形式实现。

在这里插入图片描述

Q-learning – Examples

$r_{\text{boundary}} = r_{\text{forbidden}} = -1$ ， $r_{\text{target}} = 1$ 。discount rate $\gamma=0.9$ 。学习率 $\alpha=0.1$ 。

在这里插入图片描述

下图是behavior policy和其生成的样本（ $10^5$ 步）：

在这里插入图片描述

off-policy Q-learning 学习到的policy：

在这里插入图片描述

探索的重要性： $10^5$ 个episode
如果policy探索性不够，样本就不够好。如下图：

在这里插入图片描述

A unified point of view

本讲介绍的所有算法都可以用一个统一的表达式来表示：
$q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)[q_t(s_t,a_t)-\bar{q}_t],$
其中， $\bar{q}_t$ 是TD target。

不同的TD算法有不同的 $\bar{q}_t$ 。

Algorithm	Expression of $\bar{q}_t$
Sarsa	$\bar{q}_t=r_{t+1}+\gamma q_t(s_{t+1},a_{t+1})$
$n$ -step Sarsa	$\bar{q}_t=r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^nq_t(s_{t+n},a_{t+n})$
Expected Sarsa	$\bar{q}_t=r_{t+1}+\gamma\sum_a\pi_t(a \| s_{t+1})q_t(s_{t+1}, a)$
Q-learning	$\bar{q}_t=r_{t+1}+\gamma\max_aq_t(s_{t+1},a)$
Monte Carlo	$\bar{q}_t=r_{t+1}+\gamma r_{t+2}+\ldots$

MC 方法也可以通过设置 $\alpha_t(s_t, a_t) = 1$ 从而 $q_{t+1}(s_t, a_t) = \bar{q}_t$ 来表达在这个统一表达式中。

所有算法都可以看作求解Bellman方程或Bellman最优方程的随机近似算法：

Algorithm	Equation aimed to solve
Sarsa	$\text{BE: }q_\pi(s,a)=\mathbb{E}\left[R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})S_t=s,A_t=a\right]$
$n$ -step Sarsa	$\text{BE: }q_\pi(s,a)=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^nq_\pi(s_{t+n},a_{t+n})S_t=s,A_t=a]$
Expected Sarsa	$\text{BE: }q_\pi(s,a)=\mathbb{E} \big[R_{t+1}+\gamma \mathbb{E}_{A_{t+1}}\big[q_\pi(S_{t+1},A_{t+1})\big] \| S_t=s, A_t=a \big]$
Q-learning	$\text{BE: }q(s,a)=\mathbb{E}\left[R_{t+1}+\max_aq(S_{t+1},a) \| S_t = s, A_t = a \right]$
Monte Carlo	$\text{BE: }q_\pi(s,a)=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\ldots \| S_t = s, A_t = a]$

Summary

Introduced various TD learning algorithms
Their expressions, math interpretations, implementation, relationship, examples
Unified point of view

以上内容为B站西湖大学智能无人系统强化学习的数学原理公开课笔记。

这篇关于【RL】Temporal-Difference Learning（时序差分方法）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【RL】Temporal-Difference Learning（时序差分方法）

Lecture 7: Temporal-Difference Learning

TD learning of state values

TD learning of state values – Algorithm description

TD learning of state values – Algorithm properties

TD learning of state values – The idea of the algorithm

TD learning of action values: Sarsa

Sarsa – Algorithm

Sarsa – Implementation

Sarsa – Examples

TD learning of action values: Expected Sarsa

TD learning of action values: n-step Sarsa

TD learning of optimal action values: Q-learning

Q-learning – Algorithm

Off-policy vs on-policy

Q-learning – Examples

A unified point of view

Summary

相关文章

golang中reflect包的常用方法

C# 比较两个list 之间元素差异的常用方法

MySQL查询JSON数组字段包含特定字符串的方法

关于集合与数组转换实现方法

Python中注释使用方法举例详解

一文详解Git中分支本地和远程删除的方法

在Golang中实现定时任务的几种高效方法

在Linux终端中统计非二进制文件行数的实现方法

Python中Tensorflow无法调用GPU问题的解决方法

XML重复查询一条Sql语句的解决方法