Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning

2024-05-14 20:44

本文主要是介绍Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ICML 2023 Poster
paper

Intro

文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。

Method

原始的RL目标是最大化累计奖励: π ∗ = arg ⁡ max ⁡ π J R ( π ) : = E [ ∑ t = 0 ∞ γ t r t ] \pi^*=\arg\max_\pi J_R(\pi):=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tr_t\right] π=argmaxπJR(π):=E[t=0γtrt]。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标
max ⁡ π J R + I ( π , α ) = max ⁡ π E [ ∑ t = 0 H γ t ( r t − α H t X ( π ∣ π ˉ ) ) ] \max_{\pi}J_{R+I}(\pi,\alpha)=\max_{\pi}\mathbb{E}\left[\sum_{t=0}^{H}\gamma^{t}(r_{t}-\alpha H_{t}^{X}(\pi|\bar{\pi}))\right] πmaxJR+I(π,α)=πmaxE[t=0Hγt(rtαHtX(ππˉ))]
其中 H t X ( π ∣ π ˉ ) = − E a ∼ π ( ⋅ ∣ τ t ) [ log ⁡ π ˉ ( a ∣ o t T ) ] H_t^X(\pi|\bar{\pi})=-\mathbb{E}_{a\sim\pi(\cdot|\tau_t)}[\log\bar{\pi}(a|o_t^T)] HtX(ππˉ)=Eaπ(τt)[logπˉ(aotT)]。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。形式化该问题便得到算法核心的优化目标
max ⁡ π J R + I ( π , α ) s.t. J R ( π ) ≥ J R ( π R ) \max_\pi J_{R+I}(\pi,\alpha)\quad\text{s.t.}\quad J_R(\pi)\geq J_R(\pi_R) πmaxJR+I(π,α)s.t.JR(π)JR(πR)
其中 π R \pi_R πR是只采用任务原始奖励所优化的辅助策略。进一步转化为拉格朗日对偶问题
min ⁡ λ ≥ 0 max ⁡ π [ J R + I ( π , α ) + λ ( J R ( π ) − J R ( π R ) ) ] = min ⁡ λ ≥ 0 max ⁡ π [ ( 1 + λ ) J R + I ( π , α 1 + λ ) − λ J R ( π R ) ] \min_{\lambda\geq0}\max_{\pi}\left[J_{R+I}(\pi,\alpha)+\lambda\left(J_{R}(\pi)-J_{R}(\pi_{R})\right)\right]=\\\min_{\lambda\geq0}\max_{\pi}\left[(1+\lambda)J_{R+I}(\pi,\frac{\alpha}{1+\lambda})-\lambda J_{R}(\pi_{R})\right] λ0minπmax[JR+I(π,α)+λ(JR(π)JR(πR))]=λ0minπmax[(1+λ)JR+I(π,1+λα)λJR(πR)]
解决该问题分两步,第一步优化策略 π \pi π以及 π R \pi_R πR。然后通过梯度下降优化乘子 λ \lambda λ
λ n e w = λ o l d − μ [ J R ( π ) − J R ( π R ) ] \lambda_{new}=\lambda_{old}-\mu[J_R(\pi)-J_R(\pi_R)] λnew=λoldμ[JR(π)JR(πR)]
其中 J R ( π ) − J R ( π R ) = E ( s , a , t ) ∼ ρ [ γ t ( A π R ( s , a ) − A π ( s , a ) ) ] J_R(\pi)-J_R(\pi_R)=\mathbb{E}_{(s,a,t)\thicksim\rho}[\gamma^t(A_{\pi_R}(s,a)-A_\pi(s,a))] JR(π)JR(πR)=E(s,a,t)ρ[γt(AπR(s,a)Aπ(s,a))]

这个更新规则很直观:如果融合专家优化得到的策略 π \pi π比辅助策略 π R \pi_R πR实现了更多的任务奖励,则 λ \lambda λ减少,增加了 α 1 + λ \frac{\alpha}{1+\lambda} 1+λα,使得策略优化更依赖于下一次迭代中的专家。否则,如果 辅助策略 π R \pi_R πR比策略 π \pi π获得更高的奖励,则 λ 的增加会降低教师的重要性。

伪代码

在这里插入图片描述

results

在这里插入图片描述

问题

伪代码第12行采用了梯度上升。

这篇关于Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989802

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

【tensorflow 使用错误】tensorflow2.0 过程中出现 Error : Failed to get convolution algorithm

如果在使用 tensorflow 过程中出现 Error : Failed to get convolution algorithm ,这是因为显卡内存被耗尽了。 解决办法: 在代码的开头加入如下两句,动态分配显存 physical_device = tf.config.experimental.list_physical_devices("GPU")tf.config.experiment

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

[LeetCode] 901. Online Stock Span

题:https://leetcode.com/problems/online-stock-span/ 题目大意 不断给出元素,求当前元素开始往前的最大子串,且串中每个元素的值都小于等于 该元素。 思路 class stockPair{int price;int day;public stockPair(int price,int day){this.price = price;this.d

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

《Learning To Count Everything》CVPR2021

摘要 论文提出了一种新的方法来解决视觉计数问题,即在给定类别中仅有少量标注实例的情况下,对任何类别的对象进行计数。将计数问题视为一个少样本回归任务,并提出了一种新颖的方法,该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外,还提出了一种新颖的适应策略,使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务,作者还引入了一个包含