强化学习（三）：时序差分学习（Temporal-Difference Learning, TD）

本文主要是介绍强化学习（三）：时序差分学习（Temporal-Difference Learning, TD），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. TD预测
- 1.1. TD(0)算法
2. 同轨TD控制：Sarsa
- 2.1. $\epsilon$ -软性策略 ( $\epsilon$ -greedy)
- 2.2. 算法流程
3. 离轨TD控制：Q学习
- 3.1. 基本思想
- 3.2. 算法流程
- 参考资料
X. 动态规划法DP、蒙特卡洛法MC 和时序差分法TD的比较
- X.1. 核心思想
- X.2. 算法特点

1. TD预测

TD是另一种对最优策略的学习方法，本节讲述TD预测，即使用TD求解策略 $\pi$ 的值函数 $v_{\pi}(s)$ 。

TD预测被称为 DP 和 MC 的结合体，DP是期望更新+自举bootstrap，MC是采样更新 + 样本估计。而TD则是采样更新 + 自举，即值函数 $V(S_t)$ 更新基于采样得到的 $V(S_{t+i})$ 的结果。

如果 $i = 1$ ，就为TD(0)单步TD算法，否则就为多步TD

当然动态特性 $p (s^{'}, a ∣ s, a)$ 对于TD也是未知的。

1.1. TD(0)算法

根据采样更新与自举的思想，TD(0)的状态值函数预测式为

$V(S_t) = V(S_t) + \alpha[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)] \tag{1}$

先给出一些定义：
TD目标：指 $R_{t+1} + \gamma V(S_{t+1})$
TD误差：指 $R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$
步长\学习率：指 $\alpha$

如何理解上述定义呢？

结合图一看就明白了。对于状态 $s$ ，所有包含 $s$ 的episode均会使值函数的估计值 $V (s)$ 朝着TD目标走长度为 $\alpha$ 倍TD误差的一步，而获得新的 $V (s)$ 。就是经过这样不断地走，最终会接近 $v_{\pi}(s)$ 。
在这里插入图片描述

有没有想到梯度下降中的步长的概念？意思其实是一样的，同样的可以使用非恒定学习率，例如 $\frac{1}{s的更新次数}$ ，即越接近 $v_{\pi}(s)$ 学习率越小，这样 $V (s)$ 就变成了采样取平均的方法。取平均的确会收敛概率为1，但这样收敛较慢，且对于非平稳问题则不太合适。

由此特征可以看到DP和MC的影子，深刻理解TD算法的思想：

采样更新：可以看到 $(1)$ 中更新的状态是与 $t$ 有关的，即 $V(S_t)$ 的更新是基于样本采样得出的单个后继节点的值函数，即 $S_{t+1}$ 。
只不过MC中用的是当前样本算得的 $G_t$ ，TD中直接用的估计结果V。
自举：式子中状态的值函数 $V(S_t)$ 需要用到已存在的其他状态的值函数 $V(S_{t+1})$

所以式子 $(1)$ 中的 $R_{t+1} + \gamma V(S_{t+1})$ 到底叫不叫样本？叫吧，可这个值涉及到多次迭代的估计值。不叫吧，可这又是采样得来的，而且 $V(S_t)$ 的更新只看样本给出的下一个状态 $V(S_{t+1})$ 。
$\quad$
因此TD的核心思想是对于状态 $s$ ，步步采样，用估计值函数 $V (s^{'})$ 更新（而非样本回报 $G_t$ ）

上代码

V TDEvaluation(S,A,R,policy,alpha,gamma,maxEpisodeNum)
{V(S) = 0;episode = 1;for episode = 1:maxEpisodeNum{s = random(S);while(s != terminalState){a = policy(s);s' = updateState(s,a);r = reward(s,a,s');V(s) = V(s) + alpha*( r + gamma*V(s') - V(s) );s = s'; }}return V(S);
}

2. 同轨TD控制：Sarsa

这里讨论经典的同轨的TD控制方法Sarsa。既然是同轨法，即行动策略和目标策略相同，就必须考虑最优策略是确定性策略，即选择行动状态函数最大的动作时，这样的行动策略会带来的样本探索受限的问题（动态规划与蒙特卡洛方法中如是说）

2.1. $\epsilon$ -软性策略 ( $\epsilon$ -greedy)

思路是将确定性策略改成近似确定性，即以较大概率 $1-\epsilon$ 选择 $\max_aq_{\pi}(s,a)$ ，以较小概率 $\epsilon$ 选择其他行为。因此要满足 $1-\epsilon >> \epsilon$ 。

该策略如下：

Action policy(state,Q,epsilon)
{if( rand(0,1) < epsilon )return randomActions(state);elsereturn argmax(Action,Q(state,:));
}

这样的软性策略，实际上对于新样本的采集（行动策略）会以很小的概率 $\epsilon$ 进行，因此Sarsa算法的特点就是点的探索会比较保守。

2.2. 算法流程

与公式 $(1)$ 类似，得到 $Q (s, a)$ 的更新公式：

$\alpha [ R(s,a) + \gamma Q(s',a') -Q(s,a)]$

注意到公式中出现了新状态的新动作 $a^{'}$ ，该新动作也是通过 $\epsilon$ -软性策略得到的。

整体代码如下，由于policy()是选取动作值函数Q(s,:)最大的动作，因此更新Q(s,a)就是控制。

policy Sarsa(S,A,R,epsilon,alpha,gamma,maxEpisodeNum)
{Q(S,A) = 0;episode = 1;for episode = 1:maxEpisodeNum{s = random(S);a = policy(s);while(s != terminalState){s' = updateState(s,a);a' = policy(s',Q,epsilon);r = reward(s,a,s');Q(s,a) = Q(s,a) + alpha*( r + gamma*Q(s',a') - Q(s,a) );s = s'; a = a';}}return policy(S,Q,epsilon);
}

3. 离轨TD控制：Q学习

3.1. 基本思想

Q-Learning算法是一种强化学习算法，通过智能体在环境中不断地训练进而得出一种模型，在该模型下实现智能体的决策。

Q-Learning 的思想是将智能体划分为多个可能的状态，每个状态之间通过某种行为相互转换（类似于状态机，也类似于离散系统控制中的系统状态x(k)和控制信号u(k)），在某种状态下采取不同的行为会得到不同的收益reward。

智能体的行为选择是基于获得的期望总体收益q最大进行的，即在状态 $s$ 下采取策略 $a$ 是因为这样才能使未来期望的总收益达到最大

因此需要记录所有状态的所有行为的期望总体收益，即 $Q (s, a)$ 。

（注意策略 $a$ 是基于未来所有收益的期望值，而非眼下的收益reward，一种动态规划思想）

Q-learning算法是一种针对特定场景下边决策边训练的强化学习算法。主要变量如下
状态 $s$ ，行为 $a$ ，收益 $r e w a r d (s, a)$ ，动作值函数Q-table $Q (s, a)$ ，

且系统状态 $s$ 会在 $a$ 的作用下发生转移，即 $s_j = a_{ij}(s_i)$

（注意reward和Q-table的输入是两个：状态和行为，而不只是状态。即使转移到相同的状态s，也可能有不同的收益， $reward(s_i ,a_{ij}) ≠ reward(s_k ,a_{kj})$ ）

在这里插入图片描述

Q-learning的训练的过程只是不断重复两步思维决策、Q-table更新

1.1.节中智能体的行为选择是基于获得的期望总体收益q最大进行的，这里的期望总体收益指的就是Q-table的值。

因此智能体的选择很简单，取Q最大值对应的 $a$ 即可，如果当前状态为 $s$ 则选择的行为 $a$ 应当满足

$a = a_m$ ,
where $a_m$ s.t. $Q(s, a_m) = max\{Q(s,a_1),Q(s,a_2),...,Q(s,a_n) \}$ 。

在这里插入图片描述

Q-table中 $Q (s, a)$ 表示状态 $s$ 下采取 $a$ 的得到的期望总体收益。

总体收益的含义是指，从状态 $s$ 采取动作 $a$ 到 $s^{'}$ 开始到算法结束的所有收益之和。但是从 $s^{'}$ 到算法终止策略有很多，因此这样的收益有很多，但有一个期望值。

期望的总体收益则是指从状态为 $s$ ，采取动作 $a$ 转移至 $s^{'}$ ，如果接下来都采取最佳策略的总体收益。

最佳策略则是如1.2.1所讲，期望总体收益q最大的那个选择策略。

因此根据动态规划思想， $Q (s, a)$ 就应该包含：状态 $s$ 采取动作 $a$ 的收益和 $s^{'}$ 的期望总体收益。

$\gamma E[Q(s')]$
$\quad\quad\quad= reward(s,a) + \gamma max_{a}\{Q(s',a)\}$

其中 $s^{'} = a (s)$ ， $E [Q (s^{'})]$ 表示 $s^{'}$ 状态的总体收益的期望值， $\gamma$ 表示折扣因子，用于确定延迟回报与当前回报的相对比例，越大表明延迟回报的重要程度越高。

在这里插入图片描述

迭代过程中 $Q (s, a)$ 是不断修正地过程，因此将 $Q (s, a)$ 变为过去的估计值和当前的现实值得加权和（Kalman滤波器既视感）

$\epsilon ( R(s,a) + \gamma max_{a}\{Q(s',a)\} )$

其中 $\epsilon$ 表示学习率。

3.2. 算法流程

对Q-learning算法进行一个流程总结，可能直接看伪代码更加清晰。

QLearning(initialState,endState,reward,N)
{episode = 1;s = initialState;while(episode < N){a = chooseAction(s,Qfun);sNew = updateState(s,a);Qfun = updateQ(Qfun,reward,s,a,sNew);s = sNew;if(sNew == endState){s = initialState;episode++;}}
}

动作选择、状态更新和 Qtable更新细节如下

action chooseAction(currentState,Qfun,prob)
{if(rand(0,1) > prob)return rand(all Actions within currentState);bestAction = first Action;for each Action in currentState:if(Qfun(currentState,Action) > Qfun(currentState,bestAction))bestAction = Action;return bestAction;
}newState updateState(currentState,action)	//与系统动力学有关Qfun updateQ(Qfun,reward,currentState,currentAction,newState,gamma,epsilon)
{s = currentState;a = currentAction;sNew = newState;Qfun(s,a) += epsilon * (reward(s,a) +gamma * max(Qfun(sNew,:)) );return Qfun(s,a);
}

参考资料

https://www.bilibili.com/video/BV13W411Y75P?p=5
https://blog.csdn.net/itplus/article/details/9361915
https://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc
https://blog.csdn.net/wlm_py/article/details/101301986

X. 动态规划法DP、蒙特卡洛法MC 和时序差分法TD的比较

X.1. 核心思想

X.2. 算法特点

这篇关于强化学习（三）：时序差分学习（Temporal-Difference Learning, TD）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

强化学习（三）：时序差分学习（Temporal-Difference Learning, TD）

目录

1. TD预测

1.1. TD(0)算法

2. 同轨TD控制：Sarsa

2.1. $\epsilon$ -软性策略 ( $\epsilon$ -greedy)

2.2. 算法流程

3. 离轨TD控制：Q学习

3.1. 基本思想

3.2. 算法流程

参考资料

X. 动态规划法DP、蒙特卡洛法MC 和时序差分法TD的比较

X.1. 核心思想

X.2. 算法特点

相关文章

Go学习记录之runtime包深入解析

Android学习总结之Java和kotlin区别超详细分析

重新对Java的类加载器的学习方式

Java学习手册之Filter和Listener使用方法

Java进阶学习之如何开启远程调式

Java深度学习库DJL实现Python的NumPy方式

HarmonyOS学习(七)——UI（五）常用布局总结

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画（下）

学习hash总结

强化学习（三）：时序差分学习（Temporal-Difference Learning, TD）

目录

1. TD预测

1.1. TD(0)算法

2. 同轨TD控制：Sarsa

2.1. ϵ \epsilon ϵ-软性策略 ( ϵ \epsilon ϵ-greedy)

2.2. 算法流程

3. 离轨TD控制：Q学习

3.1. 基本思想

3.2. 算法流程

参考资料

X. 动态规划法DP、蒙特卡洛法MC 和 时序差分法TD的比较

X.1. 核心思想

X.2. 算法特点

相关文章

2.1. $\epsilon$ -软性策略 ( $\epsilon$ -greedy)

X. 动态规划法DP、蒙特卡洛法MC 和时序差分法TD的比较