强化学习-论文调研-experience replay

2023-11-06 18:30

本文主要是介绍强化学习-论文调研-experience replay,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

experience replay 论文调研

一 论文概要

1 Hindsight Experience Replay(2017 NeurIPS)

在奖励稀疏的情况下,要用强化学习算法训练是很困难的. 本文提出一种通过增设不同的目标, 增加状态转移中获得奖励的次数,从而使得原本不能或者难以训练的稀疏奖励问题变得可训练,易训练. 具体是现实 在每个transaction项中增加一项目标项g,在后续训练中,将初始目标g 替换为阶段目标g', 并重新计算r' .以新的状态转移五元组(st, at, st+1,rt',g') 去训练Q和Π.

在机械臂操控实验中,结果显示使用HER的算法效果有显著提升(相关性?)

二 Model-based Hindsight Experience Replay(2021 NeurIPS)

Hindsight Experience Replay 是一种通过设置不同的目标,改变在buffer中数据的reward,从而克服稀疏回报问题的一种算法。 而model-based Hindsight Experience Replay 则是先建立环境的model,再通过model 从已有的buffer里生成虚拟数据,最后用虚拟数据去更新Q函数和策略的方法

三 Attentive Experience Replay(2020 AAAI)

算法动机出于,认为当前访问次数多的状态对优化策略有更重要的意义。算法从replay buffer中随机选取λ*k个样本(k是minibatch 的大小),分别计算与当前状态St 的相似度, 最终从λ * k个样本中挑出最相似的k个样本用于计算和更新策略的参数权重。状态的相似度计算可以用余弦相似度实现。

四 Revisiting Fundamentals of Experience Replay (ICML 2020)

具体探讨了replay buffer 中各种参数对性能影响的好坏和参数 buffer capacity是通过什么机制影响实验效果好坏的。(1)当replay capacity增加时性能增加,当老数据占比下降时性能增加(2) 即buffer capacity通过影响 n-step return 影响参数好坏。 n-step return 定义如下, 它是DQN的几个重要改进之一。 作者通过对照试验发现, 在DQN上分别只添加加 PER,Adam,C51,和 n-step 四种改进中的一种,只有当添加 n-step 改进时,增大 buffer capacity 才会明显提升性能。并且,当分别从rainbow中去除四种改进中的一种,只有当去除 n-step return 后,增大buffer capacity 性能不会得到提升。

五 Prioritized Experience Replay(ICLR 2016)

在选取transaction时训练网络时, TD-error大的求出的偏导更大,对网络影响更大,TD-error小的求出的偏导更小,对网络的影响更小, 基于此PER算法给TD-error 大的项目更高的权重,使其更高的概率被选中. 同时为了避免过多使用相同数据训练造成过拟合,也要保证优先级低的数据也有一个非零的概率被选中.

六 Model-augmented Prioritized Experience Replay(ICLR 2021)

用model-based 方式强化PER, PER 是一种基于TD-error的优先级回放的方法,即在从replay buffer 里采样时,TD-error大的transaction有更多的机会被选中,以利于即使优化模型降低TD-error。 Model-augmented Prioritized Experience Replay 即在model-base条件下加强PER方法。 首先需要对环境建模,由于R(s,a)和T(s,a)有相同的输入,文中对其使用了参数共享方法建模。 将critic net的损失从Q 的TDerror的均方差,转变为Q 的TDerror的均方差,R的均方差和Transaction的均方差的加权和。这个改进称为model-augmented Critic Network (MaCN)。 文中另一个改进是

用Q函数的TD-error的均方差 , R函数的均方差 和T函数的均方差 加权之和作为transaction的优先级。 通过这种方法,可以选到对模型长期有益和短期有益的经验,且这种方法计算耗时较per更小。这个改进就称为Model-augmented Prioritized Experience Replay MaPER.

此方法适用于所有含critic net的off-policy 算法.

7 Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learnin(ICML 2017)

在多智能体强化学习中,以IQL为例,由于环境变换受多个智能体的影响, 因此从单个智能体视角来看,环境是不稳定的,即在智能体replay buffer里的由环境生成的数据不再反映当前环境状态转移的动力. 但只用最近的经验会造成样本效率低的问题,为解决这个问题文中提出 Multi-Agent Importance Sampling . 对于IQL 因为我们指导在各个训练阶段智能体的策略,我们能环境变化的方向, 并用重要度采样来修复它. 为推导出这个重要度采样,文中重新定义了状态空间(加入了其他智能体的动作-观察),用这个状态空间重新定义了观察方程和回报方程和状态转移方程。 让不稳定环境变得稳定的另一方法是让其他智能体的参数对本智能体可见,但这使得本智能体的观察空间太大,因此需要找一个低微的能代表其他智能体参数状态的参数,文中选择了 迭代次数e 和退火的时间 ε,简单的设置在实验中得到了不错的效果。

八 DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY

动机:更大模型,更多数据已经在深度学习上被证明有效,所以本文提出一种通过分布式生成数据和优先选取数据的方法扩大深度强化学习。

多个actor 同时与环境进行交互积攒replay buffer中的数据,然后定期将数据传给learner 进行训练,learner 根据经验的优先级训练之后将定期参数复制给actor进行执行 。该架构在dqn和ddpg上效果有显著提升

九 Recurrent Experience Replay in Distributed Reinforcement Learning(2019 ICLR)

动机:强化学习 在完全可观测的问题中取得很多成功,但是在部分可观测中需要更好的基于记忆的表征来提升性能

本文证明了经验回放在参数滞后的作用而导致的表征偏移和周期性的状态衰退的问题,本文提出的R2D2模型与Ape-x相似名单时在卷积层后加了LSTM,并且还改replay buffer 存固定长80的(s,a,r)的序列且相邻序列重叠40步

为了让rnn能学到长期的状态表征,前人提出两种方法1.在经验吃采样的序列开头,用全零状态初始化网络 2.回放整个轨迹 本文认为第一种方法虽然足以在全观察的问题上收敛但是,却组织了网络学到真正的长依赖的信息。

为此提出了两种方法从随机抽样回访序列训练一个循环网络。1.存储状态:将rnn的隐藏状态存在经验池,并用它在训练时初始化网络。 2.燃烧:让网络用一部分的序列信息来制造网络开始状态,甚于部分再在这个基础上更新rnn。

实验结果显示, 用了burn-in和 store-state 比直接全零初始化状态网络效果更好。

十 A Deeper Look at Experience Replay(2015 ICMR)

动机:自从经验回放被提出后,经验池大小对训练的影响一直被低估。本文研究了经验池大小对模型效果,得出结论,过大的经验池对训练有害,并提出了一个时间复杂度为O(1)的方法来减弱这种危害。

作者对比了三种方法 Online-Q(即Q-learning) Buffer-Q(带replay buffer) 和 Combined-Q(即CER,每个batch既用当前的转移又用buffer 里的转移训练)

这种方法在一些简单任务中表现出很大的提升。在一些复杂任务上提升较小。

十一 Selective Experience Replay for Lifelong Learning(2018 AAAI)

动机:深度强化学习中的网络常常表现出遗忘性,本文提出一种结合了FIFO和长期选择的replay buffer的方法改善这个问题。

文中提出了四种选择的策略:1.基于surprise 2.基于reward 3.distribution matching 和 4.coverage maximization。并分析了效果最好的两种,3和4之间的权衡

十二 Curriculum-guided hindsight experience replay(2019 NeurIPS)

动机:出于人类思维方式,有课程的学习可以提高学习效率。 在HER中所有的目标都被平等的对待,作者认为这是不合理的:1.并非所有失败的经验都对改进智能体有平等的作用(虽然这对模型泛化性更好),2.相似的目标重复学习是多余的

因此文中提出一种动态的自适应的控制“探索与利用”的算法来控制HER中经验的选择。具体由两点 1.逐渐改变以达到目标和实际目标的距离度量方式 2.基于多样性的好心策略:用来使目标更加多样化。

二 归纳总结

除第四篇讨论参数作用,第七篇讨论多智能体情况外,其余论文关系结构如下所示。可根据经验获得方式分为两大类,集中式和分布式。集中式中又分为HER和PER两大类,MHER是基于HER对环境建模的改进,MPER是基于PER对环境建模的改进,AER是继承PER排序的思想,变换排序依据的改进。 分布式中R2D2 是基于 Ape-x 对部分可观测条件下的改进。

这篇关于强化学习-论文调研-experience replay的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358315

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个