内在好奇心模型(Intrinsic Curiosity Module,ICM)-论文Curiosity-driven Exploration by Self-supervised Prediction

本文主要是介绍内在好奇心模型(Intrinsic Curiosity Module,ICM)-论文Curiosity-driven Exploration by Self-supervised Prediction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于强化学习的稀疏奖励问题,主要的解决方案有:

  1. 1)塑形奖励函数,但是塑形奖励函数一般或多或少的带有设计者的个人主观因素,这可能会导致模型的最优策略发生偏移。目前,防止塑形奖励函数改变最优策略的方法是吴恩达的
    Potential-Based Reward Shaping (没了解的可以搜索一下看看,有很多博客)。
  2. 2)模仿学习,其实也就是使用专家演示数据引导训练,典型的代表就是DQN中使用的transitions通过专家演示数据生成和使用专家数据预训练DQN的backbone。但是,好用的专家演示数据一般是很难采集的。
  3. 3)就是好奇心驱动的探索,也就是本文要分享的方法。.基于好奇心的探索主要分为两类:
    第一类是使用预测误差作为内在奖励信号[1][2][3][4][5],第二类是使用“访问计数[6][7][8][9]”作为内在奖励。

[1] R. Houthooft, X. Chen, Y . Duan, J. Schulman, F. De Turck, and P .Abbeel. Vime: V ariational information maximizing exploration. In NIPS, 2016.
[2] S. Mohamed and D. J. Rezende. V ariational information maximisation for intrinsically motivated reinforcement learning. In NIPS, 2015.
[3] D. Pathak, P . Agrawal, A. A. Efros, and T. Darrell. Curiosity-driven exploration by self-supervised prediction. In ICML, 2017.
[4] J. Schmidhuber. A possibility for implementing curiosity and boredom in model-building neural controllers. In From animals to animats: Proceedings of the first international conference on simulation of adaptive behavior, 1991.
[5] S. P . Singh, A. G. Barto, and N. Chentanez. Intrinsically motivated reinforcement learning. In NIPS, 2005.
[6] M. Bellemare, S. Srinivasan, G. Ostrovski, T. Schaul, D. Saxton, and R. Munos. Unifying count-based exploration and intrinsic motivation. In NIPS, 2016.
[7] M. Lopes, T. Lang, M. Toussaint, and P .-Y . Oudeyer. Exploration in model-based reinforcement learning by empirically estimating learning progress. In NIPS, 2012.
[8] G. Ostrovski, M. G. Bellemare, A. v. d. Oord, and R. Munos. Count-based exploration with neural density models. arXiv:1703.01310, 2017.
[9] P . Poupart, N. Vlassis, J. Hoey, and K. Regan. An analytic solution to discrete bayesian reinforcement learning. In ICML, 2006.

首先看一下这个论文的框架图
在这里插入图片描述
图 2. 处于状态 s t s_{t} st 的agent通过执行从其当前策略 π π π 中采样的动作 a t a_{t} at与环境交互,并最终处于状态 s t + 1 s_{t+1} st+1。训练策略π以优化环境 E 提供的外在奖励 ( r t e r_{t}^{e} rte) 和我们提出的内在好奇心模块 (ICM) 生成的基于好奇心的内在奖励信号 ( r t i r_{t}^{i} rti) 的总和。ICM 将状态 s t s_{t} st s t + 1 s_{t+1} st+1 编码为feature φ ( s t ) φ(s_{t}) φ(st) φ ( s t + 1 ) φ(s_{t+1}) φ(st+1),这些feature经过训练以预测 a t a_{t} at(即逆动力学模型)。前向模型将 φ ( s t ) φ(s_{t}) φ(st) a t a_{t} at作为输入,并预测 s t + 1 s_{t+1} st+1的特征表示 。
特征空间中的预测误差被用作基于好奇心的内在奖励信号。

作者的主要意图就是:使用预测误差作为好奇心奖励,这样就是得agent在每一步都可以得到一个奖励了。解决了强化学习面对的稀疏奖励的问题。
因此,这篇文章的核心就是预测误差。下面,我们就解释一下到底是哪些变量的预测误差。

1. 预测两个变量

首先,介绍策略输出网络
这篇论文用参数为 θ P θ_{P} θP 的深度神经网络表示策略 π ( s t ; θ P ) π(s_{t}; θ_{P}) π(st;θP)。给定状态 st的agent,它执行从策略中采样的动作 a t ∼ π ( s t ; θ P ) a_{t}∼π(s_{t}; θ_{P}) atπ(st;θP) θ P θ_{P} θP被优化以最大化期望的奖励总和,
--------------------------------------- min ⁡ θ P [ E π ( s t , θ P ) [ Σ t r t ] ] \min_{\theta_{P}}[\mathbb{E}_{\pi ({s_{t},\theta _{P}})}[\Sigma_{t}r_{t}]] minθP[Eπ(st,θP)[Σtrt]]

------------------------------------------- r t = r t e + r t i r_{t}=r_{t}^{e}+r_{t}^{i} rt=rte+rti
--------------------------------- r t i = η 2 ∥ φ ^ ( s t + 1 ) , φ ( s t + 1 ) ∥ 2 2 r_{t}^{i}=\frac{\eta }{2} \left \| \hat{\varphi}(s_{t+1}),φ(s_{t+1}) \right \| _{2}^{2} rti=2ηφ^(st+1),φ(st+1)22

1.1 ICM模块的三个主要结构

从图2可以看出,ICM其实有三个模块,

  1. 特征提取器。我们可以将这两个特征提取看做是两个参数相同的深度神经网络,特征提取器输出的 φ ( s t ) φ(s_{t}) φ(st) φ ( s t + 1 ) φ(s_{t+1}) φ(st+1)是特征向量,输入其实就是agent观察到的图像,就是状态 s t s_{t} st s t + 1 s_{t+1} st+1
  2. 前向模块:forward model。该模块的输入是agent根据当前策略采取的动作 a t a_{t} at和当前状态的特征向量 φ ( s t ) φ(s_{t}) φ(st)。输出是对下一时刻状态的特征向量的预测值 φ ^ ( s t + 1 ) \hat{\varphi}(s_{t+1}) φ^(st+1)
  3. 逆模块: inverse model。该模块的输入当前状态的特征向量 φ ( s t ) φ(s_{t}) φ(st)和下一时刻状态的特征向量 φ ( s t + 1 ) φ(s_{t+1}) φ(st+1)。输出是对当前动作的预测值 a ^ t \hat{a}_{t} a^t。需要指出的是, a ^ t \hat{a}_{t} a^t是通过softmax处理的值。

1.2 逆模型预测动作 a t a_{t} at

从上面1.1节的分析可以看出,ICM的第一个预测值是对当前动作的预测值,输入是前后两个状态的特征向量,在这里,我们可以简单的将其看作是多智能体强化学习中的high-level Communication mechanism。这个操作让agent具有“全局观察能力”,其实也可以认为是这个操作让agent在时间上具有更大的视野。
逆模型的损失函数可以表示为:
---------------------------------------- min ⁡ θ I , θ E L I ( a ^ t , a t ) \min_{\theta_{I},\theta_{E}} L_{I}(\hat{a}_{t},a_{t}) minθI,θELI(a^t,at)
逆模型的表达式可以表示为:
------------------------------------------- a ^ t = g ( φ ( s t ) , φ ( s t + 1 ) ; θ I ) \hat{a}_{t}=g(\varphi (s_{t}),\varphi (s_{t+1});\theta_{I} ) a^t=g(φ(st),φ(st+1);θI)
其中, L I L_{I} LI 衡量了预测动作与实际动作之间的差异。当 a t a_{t} at是离散的时, L I L_{I} LI被建模为所有可能动作的 softmax 损失。学习到的函数 g g g 也称为逆动力学模型(inverse dynamics model),学习 g g g 所需的元组 ( s t s_{t} st, a t a_{t} at, s t + 1 s_{t+1} st+1) 是在agent使用其当前策略 π ( s ) π(s) π(s) 与环境交互时获得的。

个人观点。从逆模块的损失函数可以看出。这个模块的作用是输出当前动作的预测值 a ^ t \hat{a}_{t} a^t。与该模块相关的顺势函数其实就是最小化当前策略输出的动作 a t a_{t} at与逆模型输出的动作 a ^ t \hat{a}_{t} a^t之间的误差。
更信息的分析逆模型的作用,还需要进一步结合整体的损失函数来分析。不要急,我会在1.4节解释。

1.3 前向模块预测状态 s t + 1 s_{t+1} st+1

这个模块其实挺有意思的,它输入的是当前的动作 a t a_{t} at和当前状态的特征向量 s t + 1 s_{t+1} st+1,输出是下一个状态的特征向量的预测值 φ ^ ( s t + 1 ) \hat{\varphi}(s_{t+1}) φ^(st+1)
首先看一下这个模块对应的损失函数:
---------------------------------- min ⁡ θ F , θ E L F ( φ ^ ( s t + 1 ) , φ ( s t + 1 ) ) \min_{\theta_{F},\theta_{E}} L_{F}(\hat{\varphi}(s_{t+1}),\varphi(s_{t+1})) minθF,θELF(φ^(st+1),φ(st+1))
这个模块的输入输出表达式可以表示为:
------------------------------------------- φ ^ ( s t + 1 ) = f ( φ ( s t ) , a t ; θ F ) \hat{\varphi}(s_{t+1})=f(\varphi (s_{t}),a_{t};\theta_{F} ) φ^(st+1)=f(φ(st),at;θF)
前向模型有助于学习一个特征空间,该特征空间编码的信息仅用于预测agent的动作,而正向模型使这种学习的特征表示更具可预测性。

1.4 总的损失函数

--------------------------------- min ⁡ θ P , θ I , θ F , θ E [ − λ E π ( s t , θ P ) [ Σ t r t ] + ( 1 − β ) L I + β L F ] \min_{\theta_{P},\theta_{I},\theta_{F},\theta_{E}}[-\lambda \mathbb{E}_{\pi ({s_{t},\theta _{P}})}[\Sigma_{t}r_{t}]+(1-\beta )L_{I}+\beta L_{F}] minθP,θIθF,θE[λEπ(st,θP)[Σtrt]+(1β)LI+βLF]
其中 0 ≤ β ≤ 1 0≤β≤1 0β1是一个衡量反向模型损失和正向模型损失的标量, λ > 0 λ>0 λ>0衡量策略梯度损失和内在奖励信号的重要性。我们不将策略梯度损失反向传播到正向模型,以防止agent奖励它自己的退化解。
原文中的这句话很难理解,什么叫“防止agent奖励它自己的退化解”。

综合来看, L F L_{F} LF L I L_{I} LI,也就是预测动作和预测状态的前向模型和逆模型对整体损失函数的贡献是互斥的,也就是说他们两个是一个变大,另一个就会变小。

1.5 好奇心奖励 r t i r_{t}^{i} rti

r t i = η 2 ∥ φ ^ ( s t + 1 ) , φ ( s t + 1 ) ∥ 2 2 r_{t}^{i}=\frac{\eta }{2} \left \| \hat{\varphi}(s_{t+1}),φ(s_{t+1}) \right \| _{2}^{2} rti=2ηφ^(st+1),φ(st+1)22
简单的将,好奇心奖励就是 φ ^ ( s t + 1 ) \hat{\varphi}(s_{t+1}) φ^(st+1) φ ( s t + 1 ) φ(s_{t+1}) φ(st+1)的二范数,其实就是衡量实际值和预测值之间的误差,误差越大,二范数的值越大,则好奇心奖励的值就越大,那么这就越会鼓励agent去探索。

这篇关于内在好奇心模型(Intrinsic Curiosity Module,ICM)-论文Curiosity-driven Exploration by Self-supervised Prediction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/704471

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者