An Optimistic Perspective on Offline Reinforcement Learning(ICML2020)

本文主要是介绍An Optimistic Perspective on Offline Reinforcement Learning(ICML2020),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract

\quad 该文章利用了 the DQN replay dataset 研究了Offline RL,该数据集包含了一个 DQN agent 在60款Atari 2600游戏上的 the entire replay experience 。
\quad 我们证明了 recent off-policy deep RL 算法,即使仅仅在 replay dataset 上训练,表现也比训练好的 DQN agent 要好。
\quad 为了增强 offline setting 的泛化能力,我们提出了 Random Ensemble Mixture (REM) ,一个鲁棒的 Q-learning 算法。
\quad 在 the DQN replay dataset 上训练的 offline REM 超过了 Strong RL baselines。这个结果给我们提供了一个乐观的观点,即在 sufficiently large and diverse offline datasets (大、多样化)上训练的 RL算法可以产生高质量的策略。

提出一种基于基于DQN replay dataset的offline强化学习算法。用Random Ensemble Mixture (REM)一种更加鲁棒的Q-Learning算法增强模型的泛化能力。

论文背景

\quad 离线强化学习,19年左右,有不少大佬都讨论过,普遍的观点都是:不靠谱,性能不够好。
\quad 完全不交互,全靠之前采集的数据集,训练一个RL模型,听起来就不是那么的靠谱。实际上面临主要几个问题:

  1. 数据集的多样性必须得保证,然而随机动作和单一策略擦采集到的数据,都会面临数据质量比较差的问题。
  2. 数据集的分布得尽量一致,由于离线强化没有在线交互,如果离线的数据分布和真实的数据分布不一致,那就直接凉凉。
  3. 强化算法对离线数据的利用效果要比较好。其中DQN和DDPG(正是前人常用的两个算法,)的利用效果就不是很好,我觉得主要是这两个算法本身就不稳定。

\quad 至于结果的话,直接挂两张图就好了:可见,虽然同样的DQN,离线的打不过在线的,但是我换成了厉害的QRDQN,那么离线的QR-DQN就能打败在线的DQN。其实已经很不容易了~
在这里插入图片描述
在这里插入图片描述

\quad Offline RL的问题在于当前策略和收集Offline Data的策略不匹配问题,策略不匹配导致的问题就是采取非相同的动作,并不知道奖励应该给多少。这篇文章就是想要验证在offline data上训练智能体,能不能不修正策略之间的分布差异也能够学地很好。

意思就是:

  1. 同样的设置、同样的算法、同样的数据,离线的都会比在线的差;
  2. 但是面对没法交互的任务怎么办呢?那就好好调调算法,换一个比较好的 offline RL 算法其实效果还是很好的。
  3. 然后文章给出了一个提高 offline RL 鲁棒性的算法 —— REM

4 Developing Robust Offline RL Algorithms

\quad 在一个在线的RL设置中,agent可以从环境中获取on-policy数据,这保证了一个良性循环,agent选择它认为会带来高回报的行为,然后收到反馈纠正其错误。由于在离线RL设置中不可能收集额外的数据,因此有必要使用固定的数据集进行泛化。 我们研究是否可以设计一个robust RL算法能够提高在 offline setting 中的泛化能力。 在有监督学习中, Ensembling (集成) 是一种常用的改进泛化方法。 本文研究了两种 deep Q-learning ,采用Ensemble DQN 和 REM 算法来提高稳定性。

重点 —— 所采用的的方法:
提出两个deep Q-learning算法Ensemble DQN和REM,使得其自适应集成,改善稳定性。data的收集来自大量混合策略。

4.1 Ensemble-DQN

\quad Ensemble-DQN 是 DQN 的一个简单地扩展,通过 an ensemble of parameterized Q-functions 来近似计算 Q-values。每一个 Q-value 的计算有两个网络: Q θ k ( s , a ) Q_{\theta}^k(s,a) Qθk(s,a) 和 对应的 target 网络 Q θ ′ k ( s , a ) Q_{\theta '}^k(s,a) Qθk(s,a) 。Q-functions 使用 相同的 mini-batches 按照固定的顺序进行优化,初始化用不同的参数进行初始化。损失函数为:
在这里插入图片描述
\quad 其中, l λ l_{\lambda} lλ 是 Huber loss:PJ Huber. Robust estimation of a location parameter. Ann. Math. Stat., 1964.
在这里插入图片描述
\quad 虽然 每个 episode 中 Bootstrapped-DQN 只利用了 Q-value 估计值 中的一个来进行探索。在 offline setting 中,动作选择采用最大
我们只关心 Ensemble-DQN 有没有更好的 exploit 能力 以及 利用 Q-value 的均值进行 evaluation 的能力。

意思就是:
\quad 将 K 个 近似器取平均。最小化K个近似器的平均 TD error。

4.2 Random Ensemble Mixture (REM)

\quad 如何高效的 在指数数量级的 Q-estimates 利用 ensemble。
\quad 受到 dropout 的启发,提出 Random Ensemble Mixture (REM), 类似于 Ensemble-DQN 使用 multiple parameterized Q-functions 来估计 Q-values。REM 的关键是:用多个 Q-value 的估计值的图组合 来作为 Q-value。利用不动点理论,所有的 Q-value 都会收敛到同一个 Q-function。这样子,我们训练了一批 Q-function 近似器,这些近似器利用加权概率((K - 1)-simplex 上的概率)进行组合。

\quad 就是, REM是将多个Q值组合成一个Q值的估计,因此Q函数近似为(K − 1)个采样的混合概率。

\quad 具体的,对于每一个 mini-batch,我们随机的定义一个分布 α \alpha α,定义了K个估计的图组合来近似Q-function。这个近似器针对其相应的目标进行训练,以使TD误差最小化。loss函数如下所示:
在这里插入图片描述
\quad 其中, P Δ P_{\Delta} PΔ 表示 (K-1)个采样所得到的概率分布, Δ K − 1 = { α ∈ R K : α 1 + α 2 + . . . + α K = 1 , α k > = 0 , k = 1 , . . . , K } \Delta^{K-1} = \{\alpha \in \mathbb{R}^K:\alpha_1 + \alpha _2 + ... +\alpha_K = 1,\alpha_k>=0,k=1,...,K\} ΔK1={αRK:α1+α2+...+αK=1,αk>=0,k=1,...,K}

意思就是:
\quad 给K个近似器加上了可调节权重,换了个聚合的方式。

在这里插入图片描述
为了证明“随机”的重要性,论文里还加了一个 Averaged Ensemble-DQN (Oron Anschel, Nir Baram, and Nahum Shimkin. Averaged-dqn:Variance reduction and stabilization for deep reinforcement learning. ICML, 2017.) ,然后结果果然没有随机的好:

在这里插入图片描述

Averaged Ensemble-DQN
在这里插入图片描述
在这里插入图片描述
这篇文章中,用了历史的K个Q网络作为K个Q-value估计器(通过对先前学习的Q值进行平均,平均值降低了目标近似误差方差,从而提高了稳定性并改善了结果),与我们的直接随机初始化K个不同的Q-value估计器不同。

在这里插入图片描述
在这里插入图片描述

一句话总结:

Offline RL可以通过好好调整算法(主要是增加数据集的多样性),来提高算法的稳定性,从而实现与普通 online RL 一样好or更好的效果。

创新点 和 贡献
  1. 提出了一个随机集成混合REM的DQN算法
  2. 做了大量的实验,证明离线训练时,标准RL对连续控制任务无效。但是,作者发现,当对大型多样的离线数据集进行训练时,最近的连续控制代理(例如TD3)的性能与复杂的离线RL相当。(工作量很恐怖)

6 Important Factors in Offline RL

在这里插入图片描述
数据量越大越好

在这里插入图片描述
数据质量问题。该实验的 Offline data是使用仅仅训练了20轮的DQN生成的。

7 Related work and Discussion

Batch-RL

\quad 其定义是RL算法在一个固定的经验池中进行学习。在该问题下比较典型的应用是模仿学习( Imitation learning). 在模仿学习中,给定专家采集的样本作为一个经验池,RL算法从该经验池中学习,而不直接与环境进行交互。

作者的方案

1、提高数据的多样性 — 利用五个不同随机种子的DQN采集。
\quad 深度强化学习非常不稳定,同样的网络结构,就因为随机种子的原因,就能提高样本的多样性。
2、测试不同的算法对离线数据的利用效率,可以发现REM的利用效果最好。
3、同时验证了连续控制,TD3对离线数据的使用效果也不错:
在这里插入图片描述
第一张图TD3明显比BCQ好,第23,就不好说了,二者波动性那么大,随机种子的挑选就是一个很微妙的事情。

离线强化学习,借用强化的模型壳子,利用大量有监督学习的数据,获得比模仿学习、有监督学习,在线强化等,更好更快的性能。

参考:https://blog.csdn.net/hehedadaq/article/details/107549419

这篇关于An Optimistic Perspective on Offline Reinforcement Learning(ICML2020)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/545083

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

《Learning To Count Everything》CVPR2021

摘要 论文提出了一种新的方法来解决视觉计数问题,即在给定类别中仅有少量标注实例的情况下,对任何类别的对象进行计数。将计数问题视为一个少样本回归任务,并提出了一种新颖的方法,该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外,还提出了一种新颖的适应策略,使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务,作者还引入了一个包含

Hugging Face Offline Mode 离线模式

Hugging Face Offline Mode 离线模式 1. 缓存管理2. 遥测日志 在使用 Hugging Face 的库时,缓存和遥测日志是两个重要的功能。本文将介绍如何管理缓存、启用离线模式以及如何关闭遥测日志。 1. 缓存管理 在使用 Hugging Face 模型时,权重和文件通常会从 Hub 下载并存储在默认的缓存目录中,这个目录通常位于用户的主目录。如果

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

发表时间:5 Jun 2024 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912 作者单位:Rutgers University Motivation:学习一个通用的policy,可以执行一组不同的操作任务,是机器人技术中一个有前途的新方向。然而,