本文主要是介绍深入理解强化学习——多臂赌博机:非平稳问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
分类目录:《深入理解强化学习》总目录
到目前为止我们讨论的取平均方法对平稳的赌博机问题是合适的,即收益的概率分布不随着时间变化的赌博机问题。但如果赌博机的收益概率是随着时间变化的,该方法就不合适。如前所述,我们经常会遇到非平稳的强化学习问题。在这种情形下,给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。最流行的方法之一是使用固定步长。比如说,用于更新 n − 1 n-1 n−1个过去的收益的均值 Q n Q_n Qn的增量更新规则可以改为:
Q n + 1 = Q n + α [ R n − Q n ] Q_{n+1}=Q_n+\alpha[R_n-Q_n] Qn+1=Qn+α[Rn−Qn]
式中,步长参数 α ∈ ( 0 , 1 ] \alpha\in(0, 1] α∈(0,1]是一个常数。这使得 Q n + 1 Q_{n+1} Qn+1成为对过去的收益和初始的估计 Q 1 Q_1 Q1的加权平均。我们将此称为加权平均,因为我们可以验证权值的和是 ( 1 − α ) n + ∑ i = 1 n α ( 1 − α ) n − 1 = 1 (1-\alpha)^n+\sum_{i=1}^n\alpha(1-\alpha)^{n-1}=1 (1−α)n+∑i=1nα(1−α)n−1=1。需要注意的是,赋给收益垃的权值 R i R_i Ri的权重依赖于它被观测到的具体时刻与当前时刻的差,即 n − i n-i n−i。 1 − α 1-\alpha 1−α小于1,因此赋予的权值随着相隔次数的增加而递减。事实上,由于 ( 1 − α ) (1-\alpha) (1−α)上的指数,权值以指数形式递减(如果 1 − α = 0 1-\alpha=0 1−α=0,根据约定 0 0 = 1 0^0=1 00=1,则所有的权值都赋给最后一个收益 R i R_i Ri。正因为如此,这个方法有时候也被称为指数近因加权平均。
有时候随着时刻一步步改变步长参数是很方便的。设 α n ( a ) \alpha_n(a) αn(a)表示用于处理第 n n n次选择动作 a a a后收到的收益的步长参数。正如我们注意到的,选择 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1会得到采样平均法,大数定律保证它可以收敛到真值。然而,收敛性当然不能保证对任何 { α n ( a ) } \{\alpha_n(a)\} {αn(a)}序列都满足。随机逼近理论中的一个著名结果给出了保证收敛概率为1所需的条件:
∑ i = 1 ∞ α n ( a ) = ∞ 且 ∑ i = 1 ∞ α n 2 ( a ) < ∞ \sum_{i=1}^\infty\alpha_n(a)=\infty\quad\text{且}\quad\sum_{i=1}^\infty\alpha^2_n(a)<\infty i=1∑∞αn(a)=∞且i=1∑∞αn2(a)<∞
第一个条件是要求保证有足够大的步长,最终克服任何初始条件或随机波动。第二个条件保证最终步长变小,以保证收敛。两个收敛条件在采样平均的案例 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1中都得到了满足,但在常数步长参数 α n ( a ) = α \alpha_n(a)=\alpha αn(a)=α中不满足。在后面一种情况下,第二个条件无法满足,说明估计永远无法完全收敛,而是会随着最近得到的收益而变化。正如我们前面提到的,在非平稳环境中这是我们想要的,而且强化学习中的问题实际上常常是非平稳的。此外,符合上述条件的步长参数序列常常收敛得很慢,或者需要大量的调试才能得到一个满意的收敛率。尽管在理论工作中很常用,但符合这些收敛条件的步长参数序列在实际应用和实验研究中很少用到。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022
这篇关于深入理解强化学习——多臂赌博机:非平稳问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!