Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning

本文主要是介绍Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ICML 2023 Poster
paper

Intro

文章设定一个专家策略，给出两种优化目标。一个是基于专家策略正则的累计回报，一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度，进而实现在线引导过程。

Method

原始的RL目标是最大化累计奖励: $\pi^*=\arg\max_\pi J_R(\pi):=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tr_t\right]$ 。而本文设置一个专家策略，通过监督学习形式对原始奖励正则，构造一种新的优化目标
$\max_{\pi}J_{R+I}(\pi,\alpha)=\max_{\pi}\mathbb{E}\left[\sum_{t=0}^{H}\gamma^{t}(r_{t}-\alpha H_{t}^{X}(\pi|\bar{\pi}))\right]$
其中 $H_t^X(\pi|\bar{\pi})=-\mathbb{E}_{a\sim\pi(\cdot|\tau_t)}[\log\bar{\pi}(a|o_t^T)]$ 。文章认为，基于奖励正则所得到的策略应该较优，即执行该策略所获得的累计奖励大于原始目标下的策略。形式化该问题便得到算法核心的优化目标
$\max_\pi J_{R+I}(\pi,\alpha)\quad\text{s.t.}\quad J_R(\pi)\geq J_R(\pi_R)$
其中 $\pi_R$ 是只采用任务原始奖励所优化的辅助策略。进一步转化为拉格朗日对偶问题
$\min_{\lambda\geq0}\max_{\pi}\left[J_{R+I}(\pi,\alpha)+\lambda\left(J_{R}(\pi)-J_{R}(\pi_{R})\right)\right]=\\\min_{\lambda\geq0}\max_{\pi}\left[(1+\lambda)J_{R+I}(\pi,\frac{\alpha}{1+\lambda})-\lambda J_{R}(\pi_{R})\right]$
解决该问题分两步，第一步优化策略 $\pi$ 以及 $\pi_R$ 。然后通过梯度下降优化乘子 $\lambda$
$\lambda_{new}=\lambda_{old}-\mu[J_R(\pi)-J_R(\pi_R)]$
其中 $J_R(\pi)-J_R(\pi_R)=\mathbb{E}_{(s,a,t)\thicksim\rho}[\gamma^t(A_{\pi_R}(s,a)-A_\pi(s,a))]$

这个更新规则很直观：如果融合专家优化得到的策略 $\pi$ 比辅助策略 $\pi_R$ 实现了更多的任务奖励，则 $\lambda$ 减少，增加了 $\frac{\alpha}{1+\lambda}$ ，使得策略优化更依赖于下一次迭代中的专家。否则，如果辅助策略 $\pi_R$ 比策略 $\pi$ 获得更高的奖励，则 λ 的增加会降低教师的重要性。