深入理解强化学习——多臂赌博机:非平稳问题

2023-11-07 02:36

本文主要是介绍深入理解强化学习——多臂赌博机:非平稳问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

分类目录:《深入理解强化学习》总目录


到目前为止我们讨论的取平均方法对平稳的赌博机问题是合适的,即收益的概率分布不随着时间变化的赌博机问题。但如果赌博机的收益概率是随着时间变化的,该方法就不合适。如前所述,我们经常会遇到非平稳的强化学习问题。在这种情形下,给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。最流行的方法之一是使用固定步长。比如说,用于更新 n − 1 n-1 n1个过去的收益的均值 Q n Q_n Qn的增量更新规则可以改为:
Q n + 1 = Q n + α [ R n − Q n ] Q_{n+1}=Q_n+\alpha[R_n-Q_n] Qn+1=Qn+α[RnQn]

式中,步长参数 α ∈ ( 0 , 1 ] \alpha\in(0, 1] α(0,1]是一个常数。这使得 Q n + 1 Q_{n+1} Qn+1成为对过去的收益和初始的估计 Q 1 Q_1 Q1的加权平均。我们将此称为加权平均,因为我们可以验证权值的和是 ( 1 − α ) n + ∑ i = 1 n α ( 1 − α ) n − 1 = 1 (1-\alpha)^n+\sum_{i=1}^n\alpha(1-\alpha)^{n-1}=1 (1α)n+i=1nα(1α)n1=1。需要注意的是,赋给收益垃的权值 R i R_i Ri的权重依赖于它被观测到的具体时刻与当前时刻的差,即 n − i n-i ni 1 − α 1-\alpha 1α小于1,因此赋予的权值随着相隔次数的增加而递减。事实上,由于 ( 1 − α ) (1-\alpha) (1α)上的指数,权值以指数形式递减(如果 1 − α = 0 1-\alpha=0 1α=0,根据约定 0 0 = 1 0^0=1 00=1,则所有的权值都赋给最后一个收益 R i R_i Ri。正因为如此,这个方法有时候也被称为指数近因加权平均。

有时候随着时刻一步步改变步长参数是很方便的。设 α n ( a ) \alpha_n(a) αn(a)表示用于处理第 n n n次选择动作 a a a后收到的收益的步长参数。正如我们注意到的,选择 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1会得到采样平均法,大数定律保证它可以收敛到真值。然而,收敛性当然不能保证对任何 { α n ( a ) } \{\alpha_n(a)\} {αn(a)}序列都满足。随机逼近理论中的一个著名结果给出了保证收敛概率为1所需的条件:
∑ i = 1 ∞ α n ( a ) = ∞ 且 ∑ i = 1 ∞ α n 2 ( a ) < ∞ \sum_{i=1}^\infty\alpha_n(a)=\infty\quad\text{且}\quad\sum_{i=1}^\infty\alpha^2_n(a)<\infty i=1αn(a)=i=1αn2(a)<

第一个条件是要求保证有足够大的步长,最终克服任何初始条件或随机波动。第二个条件保证最终步长变小,以保证收敛。两个收敛条件在采样平均的案例 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1中都得到了满足,但在常数步长参数 α n ( a ) = α \alpha_n(a)=\alpha αn(a)=α中不满足。在后面一种情况下,第二个条件无法满足,说明估计永远无法完全收敛,而是会随着最近得到的收益而变化。正如我们前面提到的,在非平稳环境中这是我们想要的,而且强化学习中的问题实际上常常是非平稳的。此外,符合上述条件的步长参数序列常常收敛得很慢,或者需要大量的调试才能得到一个满意的收敛率。尽管在理论工作中很常用,但符合这些收敛条件的步长参数序列在实际应用和实验研究中很少用到。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

这篇关于深入理解强化学习——多臂赌博机:非平稳问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/360675

相关文章

Springboot3统一返回类设计全过程(从问题到实现)

《Springboot3统一返回类设计全过程(从问题到实现)》文章介绍了如何在SpringBoot3中设计一个统一返回类,以实现前后端接口返回格式的一致性,该类包含状态码、描述信息、业务数据和时间戳,... 目录Spring Boot 3 统一返回类设计:从问题到实现一、核心需求:统一返回类要解决什么问题?

maven异常Invalid bound statement(not found)的问题解决

《maven异常Invalidboundstatement(notfound)的问题解决》本文详细介绍了Maven项目中常见的Invalidboundstatement异常及其解决方案,文中通过... 目录Maven异常:Invalid bound statement (not found) 详解问题描述可

idea粘贴空格时显示NBSP的问题及解决方案

《idea粘贴空格时显示NBSP的问题及解决方案》在IDEA中粘贴代码时出现大量空格占位符NBSP,可以通过取消勾选AdvancedSettings中的相应选项来解决... 目录1、背景介绍2、解决办法3、处理完成总结1、背景介绍python在idehttp://www.chinasem.cna粘贴代码,出

SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)

《SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)》本文总结了SpringBoot项目整合Kafka启动失败的常见错误,包括Kafka服务器连接问题、序列化配置错误、依赖配置问题、... 目录一、Kafka服务器连接问题1. Kafka服务器无法连接2. 开发环境与生产环境网络不通二、序

SpringSecurity中的跨域问题处理方案

《SpringSecurity中的跨域问题处理方案》本文介绍了跨域资源共享(CORS)技术在JavaEE开发中的应用,详细讲解了CORS的工作原理,包括简单请求和非简单请求的处理方式,本文结合实例代码... 目录1.什么是CORS2.简单请求3.非简单请求4.Spring跨域解决方案4.1.@CrossOr

nacos服务无法注册到nacos服务中心问题及解决

《nacos服务无法注册到nacos服务中心问题及解决》本文详细描述了在Linux服务器上使用Tomcat启动Java程序时,服务无法注册到Nacos的排查过程,通过一系列排查步骤,发现问题出在Tom... 目录简介依赖异常情况排查断点调试原因解决NacosRegisterOnWar结果总结简介1、程序在

解决java.util.RandomAccessSubList cannot be cast to java.util.ArrayList错误的问题

《解决java.util.RandomAccessSubListcannotbecasttojava.util.ArrayList错误的问题》当你尝试将RandomAccessSubList... 目录Java.util.RandomAccessSubList cannot be cast to java.

Apache服务器IP自动跳转域名的问题及解决方案

《Apache服务器IP自动跳转域名的问题及解决方案》本教程将详细介绍如何通过Apache虚拟主机配置实现这一功能,并解决常见问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录​​问题背景​​解决方案​​方法 1:修改 httpd-vhosts.conf(推荐)​​步骤

java反序列化serialVersionUID不一致问题及解决

《java反序列化serialVersionUID不一致问题及解决》文章主要讨论了在Java中序列化和反序列化过程中遇到的问题,特别是当实体类的`serialVersionUID`发生变化或未设置时,... 目录前言一、序列化、反序列化二、解决方法总结前言serialVersionUID变化后,反序列化失

C++ 多态性实战之何时使用 virtual 和 override的问题解析

《C++多态性实战之何时使用virtual和override的问题解析》在面向对象编程中,多态是一个核心概念,很多开发者在遇到override编译错误时,不清楚是否需要将基类函数声明为virt... 目录C++ 多态性实战:何时使用 virtual 和 override?引言问题场景判断是否需要多态的三个关