搞强化学习还不了解AutoRL?牛津大学、谷歌等十余位学者撰文综述

本文主要是介绍搞强化学习还不了解AutoRL?牛津大学、谷歌等十余位学者撰文综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

63cdefcea255ebdd96393d9134ffdf6a.gif

©作者 | 小舟、陈萍

来源 | 机器之心

来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究者撰文综述 AutoRL。

强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的成果,许多人认为(深度)强化学习提供了通向通用智能体的途径。然而,RL 智能体的成功通常对训练过程中的设计选择高度敏感,可能需要繁琐且容易出错的手动调整。这使得将 RL 用于新问题具有挑战性,同时也限制了 RL 的全部潜力。

在机器学习的许多其他领域,AutoML 已经表明可以自动化此类设计选择,并且在应用于 RL 时也产生了有希望的初步结果。然而,自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用,还包括 RL 独有的额外挑战,这使得研究者自然而然地产生了一些不同的方法。

AutoRL 已成为 RL 研究的一个重要领域,为从 RNA 设计到围棋等游戏的各种应用提供了希望。由于 RL 中考虑的方法和环境具有多样性,因此许多研究都是在不同的子领域进行的。来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究者撰文试图统一 AutoRL 领域,并提供了通用分类法,该研究详细讨论了每个领域并提出未来研究人员可能感兴趣的问题。

1b1ed3c3c28594d47fe5dd57277ef9d5.png

论文地址:

https://arxiv.org/pdf/2201.03916.pdf

AutoRL 方法

强化学习理论上可以用于任何任务,包括世界模型未知的环境。然而,这种通用性也是有代价的,其最大的缺点就是智能体往往不能获得环境的真实模型。如果智能体想在一个场景下使用模型,那它必须完全从经验中学习,这会带来很多挑战。智能体探索出来的模型和真实模型之间存在误差,而这种误差会导致智能体在学习到的模型中表现很好,但在真实的环境中表现得不好(甚至很差)。

该研究调查的目的是介绍 AutoRL 领域,AutoRL 可以应对各种挑战:一方面,RL 算法的脆弱性阻碍了其在新领域的应用,尤其是那些从业者缺乏大量资源来搜索最佳配置的领域。在许多情况下,对于完全不可见的问题,手动找到一组中等强度的超参数可能会非常昂贵。AutoRL 已被证明可以在这种情况下帮助解决重要问题,例如设计 RNA。另一方面,对于那些受益于更多计算的人来说,显然增加算法的灵活性可以提高性能。著名的 AlphaGo 智能体已经展示了这一点,该智能体通过使用贝叶斯优化得到了显着改进。

早在 1980 年代,AutoRL 算法就被证明是有效的。然而,最近 AutoML 的流行导致了更先进技术的新生应用。与此同时,最近元学习的流行导致了一系列旨在自动化 RL 过程的工作。

该论文试图提供这些方法的分类,他们希望通过思想的交叉融合来开辟一系列未来的工作,同时也向 RL 研究人员介绍一套技术来提高他们的算法性能。该研究相信 AutoRL 在提高强化学习潜在影响方面发挥着重要作用,无论是在开放式研究和还是在现实应用中。

此外,该研究希望将对 AutoML 感兴趣的研究人员吸引到 AutoRL 社区,特别地,RL 具有非平稳性(non-stationarity),因为智能体正在训练的数据是当前策略的函数。此外,该研究还介绍了 AutoRL 针对特定 RL 问题的环境和算法设计。

7d3c0d6e93972064670bb68fa625d057.png

该研究调查了 AutoRL 社区以及技术等内容。一般来说,AutoRL 方法大多数都可以通过组合内部循环和外部循环组织起来。每个循环都可以通过黑箱或基于梯度的方法进行优化,然而外部循环的梯度和内部循环的黑箱不能组合在一起,因为内部循环黑箱设置将使梯度不可用,如表 2 和图 2 所示:

52aafa1d442b1f0c13e128f282afade4.png

2eeedd8265b4d956127dcfd0c373e3d3.png

如下表 3 所示,该研究按照大类总结了 AutoRL 方法的分类,方法分类将体现在第四章的每一小节

e4bace9f57aa8dfb94409dc0cd339c2c.png

随机 / 网格搜索驱动方法

该研究首先讨论了最简单的方法:随机搜索和网格搜索。随机搜索从搜索空间中随机采样超参数配置,而网格搜索将搜索空间划分为固定的网格点,并对其进行评估。由于其简单性,随机搜索和网格搜索可用于选择超参数列表,评估超参数并选择最佳配置。事实上,网格搜索仍然是 RL 中最常用的方法,网格搜索在绝大多数情况下都会调整超参数,但不应将其视为最有效的方法。但是这些经典方法没有考虑优化问题的潜在非平稳性,下图 3 描述了这个问题:

166af162d7a0bb475087ddef189255d3.png

提高随机搜索性能的一种常见方法是使用 Hyperband,这是一种用于超参数优化的配置评估。它专注于通过自适应资源分配和早停(early-stopping)来加速随机搜索。特别的,Hyperband 使用「Successive Halving」将预算分配给一组超参数配置。Zhang 等人使用随机搜索和 Hyperband 来调整其 MBRL 算法的超参数。

贝叶斯优化

贝叶斯优化(Bayesian Optimization ,BO)是迄今为止最流行的方法之一,主要用于工业应用和各种科学实验。对于 RL 应用程序,BO 最突出的用途之一是调整 AlphaGo 超参数,其中包括蒙特卡洛树搜索 (MCTS) 超参数和时间控制设置。这导致 AlphaGo 在自我对弈中的胜率从 50% 提高到 66.5%。图 4 展示了 RL 案例中贝叶斯优化的一般概念:

fe9255af623789867b92e0e43fadc835.png

演化算法

演化算法被广泛应用于各种优化任务,其机制如图 5 所示:

3a8aa09107f5f12d5b1524cd65418edb.png

演化算法经常被用于搜索 RL 算法的超参数。Eriksson 等人使用实数遗传算法 (GA),通过种群中每个个体的基因编码 RL 算法的超参数,以调整 SARSA 超参数,研究者将该方法应用于控制移动机器人。Cardenoso Fernandez 和 Caarls 使用 GA 在简单设置中调整 RL 算法的超参数,并通过结合自动重启策略以摆脱局部最小值,取得了良好的性能。Ashraf 等人使用 Whale 优化算法(WOA),其灵感来自座头鲸的狩猎策略,在各种 RL 任务中优化 DDPG 超参数以提高性能。

用于在线调优的元梯度

元梯度提供了一种替代方法来处理 RL 超参数的非平稳性。元梯度公式的灵感来自元学习方法,例如 MAML,它使用梯度优化了内部和外部循环。特别是,元梯度方法将其(可微分)超参数的子集指定为元参数 η。在内部循环中,智能体使用固定的 η 进行优化,采用梯度 step 来最小化(通常是固定的)损失函数。在外部循环中,通过采取梯度 step 来优化 η,以最小化外部损失函数。内部和外部损失函数的每个特定选择都定义了一个新的元梯度算法。

黑盒在线调优

PBT 和元梯度的优势在于动态调整超参数的能力,然而,这并不是唯一的方法。事实上,研究者已经考虑了各种其他方法,从黑盒方法到在线学习启发方法。本节重点介绍在超参数不是可微的设置中动态适应的单智能体方法。

自适应选择超参数的方法自 20 世纪 90 年代以来一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自适应加权方案的三种替代方法,Kearns 和 Singh (2000) 推导出时序差分算法误差上限,并使用这些边界推导出 λ 的时间表。Downey 和 Sanner (2010) 使用贝叶斯模型平均来为 TD 方法选择 λ bootstrapping 超参数。最近, White (2016) 提出了 λ-greedy 来适应 λ 作为状态的函数,并实现近似最优的偏差 - 方差权衡,Paul 等人 (2019) 提出了 HOOF,它使用带有非策略数据的随机搜索来周期性地为策略梯度算法选择新的超参数。

环境设计

环境设计是强化学习智能体自动学习的重要组成部分。从课程学习到合成环境学习和生成,到将课程学习与环境生成相结合,这里的目标是加快机器学习智能体通过环境设计的学习速度。如图 7 所示:

fee75135d0563675ac0b25a1b0095f6c.png

混合方法

不可避免的是,一些方法不属于单一类别。事实上,许多方法都试图利用不同方法的优势,可称之为混合方法。在该研究中,这些混合方法被定义为使用表 3 中不止一类技术的方法,例如 BOHB、DEHB 等。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

59858b7bd465c2537811b070987e232a.png

d712e1ddfee7cc7e6e03918a6f0b14cc.png

b6300034f577545dc8431c807570dca9.png

db4c056f78ee73ba7f16e04a32163d61.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

36e6a1637824e294cf298de68f743598.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

190a88e1b74bd8d8869463048987bb23.png

这篇关于搞强化学习还不了解AutoRL?牛津大学、谷歌等十余位学者撰文综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/251540

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个