(CQL)Conservative Q-Learning for Offline Reinforcement Learning

2023-12-28 04:38

本文主要是介绍(CQL)Conservative Q-Learning for Offline Reinforcement Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract

\qquad 在大规模、现实世界应用中,强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。 O f f l i n e R L Offline\; RL OfflineRL 算法旨在利用 p r e v i o u s l y − c o l l e c t e d previously-collected previouslycollected s t a t i c d a t a s e t s w i t h o u t f u r t h e r i n t e r a c t i o n static \; datasets\; without \; further \; interaction staticdatasetswithoutfurtherinteraction 学习有效的策略。然而,在实践中, O f f l i n e R L Offline\; RL OfflineRL 代表了一个主要的挑战,标准的 o f f − p o l i c y R L off-policy RL offpolicyRL 算法可能由于 d a t a s e t dataset dataset l e a r n e d p o l i c y learned policy learnedpolicy 之间的分布差异 导致的过估计而失效,尤其是当在一个 c o m p l e x complex complex m u t i − m o d a l d a t a d i s t r i b u t i o n s muti-modal \; data \; distributions mutimodaldatadistributions 上训练时。

\qquad 在本文中,我们提出了 c o n s e r v a t i v e Q − l e a r n i n g ( C Q L ) conservative \; Q-learning (CQL) conservativeQlearning(CQL),旨在学习一个保守的 Q − f u n c t i o n Q-function Qfunction,即通过该 Q − f u n c t i o n Q-function Qfunction 得到的值是其真实值的下界。

\qquad 我们从理论上证明了CQL产生了一个当前策略的价值的下界,它是一个有 t h e o r e t i c a l i m p r o v e m e n t g u a r a n t e e s theoretical \; improvement \; guarantees theoreticalimprovementguarantees p o l i c y l e a r n i n g p r o c e d u r e policy \; learning \; procedure policylearningprocedure策略学习过程 ) 。在实践中,CQL通过一个简单的 Q − v a l u e r e g u l a r i z e r Q-value \; regularizer Qvalueregularizer 对标准Bellman误差目标进行了扩展,该正则化器在现有 deep q-learning 和actor-critic实现之上易于实现。在离散和连续控制领域,我们表明CQL实质上优于现有的离线RL方法,通常学习策略获得2-5倍的高最终回报,特别是在学习复杂和多模态数据分布时。

3、The Conservative Q-Learning (CQL) Framework

\qquad 我们提出了一个 c o n s e r v a t i v e Q − l e a r n i n g ( C Q L ) conservative \; Q-learning (CQL) conservativeQlearning(CQL) 算法,通过这个算法学习到的一个 p o l i c y policy policy Q − f u n c t i o n Q-function Qfunction 的期望值是其真实值的下界。 Q − v a l u e Q-value Qvalue 的下界可以防止 O f f l i n e R L Offline\; RL OfflineRL 设置中常见的由于OOD动作和函数逼近错误而导致的过高估计[36,32]。我们使用 C Q L CQL CQL 泛指Q-learning方法和actor-critic方法,尽管后来也使用明确的策略。我们首先关注 C Q L CQL CQL 中的策略评估步骤,它本身可以作为一个非策略评估过程使用,或者集成到一个完整的 O f f l i n e R L Offline\; RL OfflineRL 算法中,我们将在3.2节中讨论。

3.1 Conservative Off-Policy Evaluation

\qquad 我们想估计 在行为策略 π β ( a ∣ s ) \pi_{\beta}(a|s) πβ(as) 下生成的数据集 D D D 中的 t a r g e t p o l i c y π target \; policy\; \pi targetpolicyπ 的 价值 V π ( s ) \; V^{\pi}(s) Vπ(s) 。因为我们注重防止对策略值的过高估计,所以我们想学习一个 保守的下界 Q − f u n c t i o n Q-function Qfunction,在最小化 s t a n d a r d B e l l m a n e r r o r o b j e c t i v e standard \; Bellman \; error \; objective standardBellmanerrorobjective 的同时,最小化 Q − v a l u e Q-value Qvalue。我们选择的惩罚项是,最小化在特定 s t a t e − a c t i o n p a i r s state-action \; pairs stateactionpairs 分布下 Q − v a l u e Q-value Qvalue 的期望。由于标准的 Q − f u n c t i o n Q-function Qfunction 训练不查询 未观测 s t a t e state state Q − f u n c t i o n Q-function Qfunction,但是查询 未观测 a c t i o n action action Q − f u n c t i o n Q-function Qfunction。我们限制 μ \mu μ 来与数据集中的 state-marginal 匹配,即 μ ( s , a ) = d π β μ ( a ∣ s ) \mu(s,a) = d^{\pi_{\beta}}\mu(a|s) μ(s,a)=dπβμ(as)。这样就可以进行训练过程中 Q − f u n c t i o n Q-function Qfunction 的迭代更新:
在这里插入图片描述
\qquad 其中 α \alpha α 是权衡因子。

\qquad T h e o r e m 3.1 Theorem\;3.1 Theorem3.1 中,我们展示了 对于所有的 ( s , a ) (s,a) (s,a) Q − f u n c t i o n Q-function Qfunction Q π Q^\pi Qπ 的下界:
在这里插入图片描述
\qquad 然而,如果只想估计 V π ( s ) V^\pi(s) Vπ(s) ,我们可以大幅收紧这个下界。如果我们需要 π ( a ∣ s ) \pi(a|s) π(as) 下的 Q π ^ \hat{Q_{\pi}} Qπ^的期望是 V π ( s ) V^\pi(s) Vπ(s) 的下界,我们可以通过引入一个额外的 data 分布 π β ( a ∣ s ) \pi_{\beta}(a|s) πβ(as) 下的 Q − v a l u e m a x i m i z a t i o n t e r m Q-value \; maximization \; term Qvaluemaximizationterm 来提升这个上界。迭代更新公式为:
在这里插入图片描述
\qquad T h e o r e m 3.2 Theorem\;3.2 Theorem3.2 中,我们展示了 结果 Q − v a l u e Q ^ π Q-value \; \hat{Q}_{\pi} QvalueQ^π 不是 a point-wise lowerbound,当在这里插入图片描述的时候有在这里插入图片描述。直观上,公式(2)在最大化行为策略 π ^ β \hat{\pi}_{\beta} π^β下的 Q − v a l u e Q-value Qvalue 时, π ^ β \hat{\pi}_{\beta} π^β下的动作的 Q − v a l u e s Q-values Qvalues 更可能被过估计,因此 Q ^ π \hat{Q}^{\pi} Q^π 不一定是 Q π Q^{\pi} Qπ 的 pointwise 下界。而最大化项中原则上可以利用除了 π ^ β ( a ∣ s ) \hat{\pi}_{\beta}(a|s) π^β(as) 的其他分布,我们在附录D.2中证明了结果值不能保证是其他分布的下界。

\qquad 公式(1)展示了基础的 CQL 公式,学到的 Q − f u n c t i o n Q-function Qfunction 是真是 Q − f u n c t i o n Q π Q-function \; Q^{\pi} QfunctionQπ 的下界,公式(2)展示了 e x p e c t e d Q − v a l u e o f t h e p o l i c y expected \; Q-value \; of \; the \; policy expectedQvalueofthepolicy 的更 t i g h e r tigher tigher 的下界。通过选择比较好的 α \alpha α 两个公式都可行,一般 α \alpha α 设置的比较小。

3.2 Conservative Q-Learning for Offline RL

\qquad 将结果应用于一个 c o m p l e t e R L a l g o r i t h m complete \; RL \; algorithm completeRLalgorithm

\qquad 提出 o f f l i n e p o l i c y l e a r n i n g offline \; policy \; learning offlinepolicylearning 的一般化方法 —— c o n s e r v a t i v e Q − l e a r n i n g ( C Q L ) conservative \; Q-learning \; (CQL) conservativeQlearning(CQL)
\qquad

在这里插入图片描述

这篇关于(CQL)Conservative Q-Learning for Offline Reinforcement Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/545082

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

《Learning To Count Everything》CVPR2021

摘要 论文提出了一种新的方法来解决视觉计数问题,即在给定类别中仅有少量标注实例的情况下,对任何类别的对象进行计数。将计数问题视为一个少样本回归任务,并提出了一种新颖的方法,该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外,还提出了一种新颖的适应策略,使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务,作者还引入了一个包含

Hugging Face Offline Mode 离线模式

Hugging Face Offline Mode 离线模式 1. 缓存管理2. 遥测日志 在使用 Hugging Face 的库时,缓存和遥测日志是两个重要的功能。本文将介绍如何管理缓存、启用离线模式以及如何关闭遥测日志。 1. 缓存管理 在使用 Hugging Face 模型时,权重和文件通常会从 Hub 下载并存储在默认的缓存目录中,这个目录通常位于用户的主目录。如果

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

发表时间:5 Jun 2024 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912 作者单位:Rutgers University Motivation:学习一个通用的policy,可以执行一组不同的操作任务,是机器人技术中一个有前途的新方向。然而,