Sparse Reward的思考——Hierarchical RL

2024-01-18 14:10

文章标签 思考 rl reward hierarchical sparse

本文主要是介绍Sparse Reward的思考——Hierarchical RL，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

背景

现在就出现了另外一个场景，就是我们的目标是多个步骤的。可能在中间的某个步骤，很难获得最好的收益。举个例子，小孩子在学习和玩耍的过程看成一个强化的过程。比如，下一步如果选择玩耍，下一步可以得到1分，但是最终是-100分。对于学习步骤，下一步可能是-1分，但是最终是100分。但是我们的机器在选择适合，可能会选择玩耍，因为最终的reward是多步的，比较难以学习。在这种情况下，就需要用到sparse reward的场景。

通常情况下，Agent 每一步操作有一个 reward 对应，但是，当 reward 的分布非常稀疏时，可能三四步甚至更多步之后才能产生reward。这样的话，对于机器而言学习如何行动会十分困难。
这个一开始的暂时的小的reward 就叫 Sparse Reward
比如说要让一个机器人倒水进水杯里，如果不对机器人做任何指导，可能它做很多次尝试，reward都一直是零。（不知道杯子在哪，不知道拿着手上的水壶干嘛，不知道水壶靠近杯子之后应该怎么做）

一、Reward shaping:Curiosity(好奇法)

如果 reward 分布非常稀疏的时候，actor 会很难学习，所以刻意设计 reward 引导模型学习。
把关键的一些动作强制地定义为正的reward，这样agent就不会反感这一学习行为，从而一步步走到最大的reward。

给强化学习模型添加 Reward shaping 的方法：好奇法 Curiosity。
在原来的强化学习模型当中，actor与环境做互动，根据环境给的state，采取一定的action，并得到reward。而新的模型引入了一个新的函数：ICM。

基于上边的例子，有一个ICM(intrinsic curiosity module)可以实现类似的逻辑。就是我们去人工设置一个reward的生成器，来帮助机器进行选择。

但是这样的方法会带来一个问题，就是ICM过于倾向于新的方法。这样会带来的一个问题就是机器总是会选择没出现过的场景。举个例子，在玩游戏的时候，很多的游戏背景是随机出现的，这样机器会一直待在原地不动，这个是因为背景一直变换，所以电脑倾向于选择这种的场景。

那怎么去优化这个问题呢？我们可以去学习另外一个网络，只保留有用的动作.。

二、Curriculum Learning(课程式学习)：Reverse Curriculum Generation

应该逐步的进行学习，即学习的时候，应该从比较简单的方法开始学习起来，逐步到比较困难的地方。

“制定学习计划” Curriculum Learning，人来设定agent的学习顺序，让Agent以从易到难的顺序学习。
比如机器人倒水的例子，最开始可以人引导机器人手臂到杯子的附近，教它做倒水的动作，之后再慢慢改变水杯，水壶等变量，让机器从简单学到复杂。

例子：

三、Hierarchical Reinforcement Learning(阶层式强化学习)

有好几个 agent，一些 agent 负责比较 high level 的东西，它负责订目标，然后它订完目标以后再分配给其他的 agent 去执行完成。
如果低一层的agent没法达到目标，那么高一层的agent会受到惩罚
每一层的agent都是将上一层的愿景当做输入，然后决定自己要产生什么输出
如果一个agent实现了一个错误的目标，那就将最初的目标改为这个错误的目标（保证已经实现的成果不被浪费）

在这里插入图片描述

这篇关于Sparse Reward的思考——Hierarchical RL的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/619239。 23002807@qq.com

相关文章

关于rpc长连接与短连接的思考记录

关于rpc长连接与短连接的思考记录

《关于rpc长连接与短连接的思考记录》文章总结了RPC项目中长连接和短连接的处理方式,包括RPC和HTTP的长连接与短连接的区别、TCP的保活机制、客户端与服务器的连接模式及其利弊分析,文章强调了在实... 目录rpc项目中的长连接与短连接的思考什么是rpc项目中的长连接和短连接与tcp和http的长连接短

阅读更多...

【编程底层思考】垃圾收集机制，GC算法，垃圾收集器类型概述

【编程底层思考】垃圾收集机制，GC算法，垃圾收集器类型概述

Java的垃圾收集（Garbage Collection，GC）机制是Java语言的一大特色，它负责自动管理内存的回收，释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍：一、垃圾收集机制概述：对象存活判断：垃圾收集器定期检查堆内存中的对象，判断哪些对象是“垃圾”，即不再被任何引用链直接或间接引用的对象。内存回收：将判断为垃圾的对象占用的内存进行回收，以便重新使用。

阅读更多...

【编程底层思考】详解Java的JUC多线程并发编程底层组件AQS的作用及原理

【编程底层思考】详解Java的JUC多线程并发编程底层组件AQS的作用及原理

Java中的AbstractQueuedSynchronizer（简称AQS）是位于java.util.concurrent.locks包中的一个核心组件，用于构建锁和其他同步器。AQS为实现依赖于FIFO（先进先出）等待队列的阻塞锁和相关同步器提供了一套高效、可扩展的框架。一、AQS的作用统一同步状态管理：AQS提供了一个int类型的成员变量state，用于表示同步状态。子类可以根据自己

阅读更多...

一道算法题引发的动态内存管理的思考

一道算法题引发的动态内存管理的思考

在做PKU2762时，需要建邻接表。于是按部就班写了下面一个插入边到邻接表中的函数： const int VMAX = 1010;typedef struct Graph{int vex;Graph* next;}Graph;Graph ArcGraph[VMAX];void insert(int u, int v){Graph* t = new Graph;Graph*

阅读更多...

go 和 java 技术选型思考

go 和 java 技术选型思考

背景： go和java我这边自身都在使用，感受比较深，java使用了有7年多，go也就是今年开始的，公司需要所以就学了使用，发现这两个语言都很好，需要根据场景选择，我写下我这边的看法。关于go和java语言层面和特性就不说了，网上都有，我这边从我这边实际使用的场景情况来说，供大家参考。给我最大的感受，php转go的不少，也是符合未来技术大趋势的，目前来看，java转go也比较

阅读更多...

Jmeter使用时小技巧添加“泊松随机定时器“模拟用户思考时间

Jmeter使用时小技巧添加“泊松随机定时器“模拟用户思考时间

1、模拟用户思考时间，添加"泊松随机定时器"

阅读更多...

思考自己写博客的意义

思考自己写博客的意义

感想从今年2月份开始，我就要求自己以每周4篇的速度写博客。然而问题是：每周的空闲时间是不稳定的，这导致我没法保证花费相同的时间去输出稳定质量的博客。当时间不够时，我将面临选择：是减少数量来保证稳定的质量，还是降低质量来保证稳定的数量？我选择的是——牺牲质量。因为，相比于“质量”，“数量”是准确可见的。我担心：一旦有一次没能完成目标数量，便会出现“破窗效应”，让我潜意识里再也不认同“目标”了

阅读更多...

是时候重新思考你的Google广告策略了吗？

是时候重新思考你的Google广告策略了吗？

以产品为中心、仅以关键词为焦点的广告活动是谷歌广告中常见的一种活动类型。如果你销售复古女式T恤，你可能会设置基于“复古女式T恤”关键词的独立关键词广告活动。对于许多B2C零售商来说，这种方法效果不错。但是，对于其他一些商家来说，基于产品和关键词的广告活动并不一定是最好的策略。比如说，我们接手了一个新的B2B客户的谷歌广告账户，其所有广告活动都是以产品为中心、仅关注关键词的广告活动。

阅读更多...

【编程底层思考】如何检测和避免线程死锁

【编程底层思考】如何检测和避免线程死锁

一、什么是线程死锁? 线程死锁发生在多个线程因为争夺资源而相互阻塞，导致程序无法正常结束的情况。例如，线程A持有资源2并等待资源1，线程B持有资源1并等待资源2，这样就形成了死锁。二、如何检测死锁？使用jmap、jstack等命令行工具查看JVM的线程栈和堆内存情况，jstack可以显示死锁信息。使用VisualVM、JConsole等图形化工具进行排查。例如，JConsole可以连接到

阅读更多...

【个人思考】 Java为什么解释执行时不直接解释源码？

【个人思考】 Java为什么解释执行时不直接解释源码？

起因最近学习JVM，产生一个问题：Java为什么解释执行时不直接解释源码？众所周知，Java 字节码是跨平台的，因此 Java 才能一次编译处处运行。但是，Java 源码本身也是跨平台的啊，为什么不可以省略编译为字节码这一步，直接将源码运行在虚拟机上？如果是效率问题，可不可以在设计 Java 语言的时候解决？对于此问题，大部分回答诸如：“采用字节码的好处主要包括跨平台性、安全性、性

阅读更多...