强化学习中Sara算法和Q-Learning算法的区别

2023-10-16 20:10

本文主要是介绍强化学习中Sara算法和Q-Learning算法的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 Q-Learning算法:

1,在环境S1中选出动作a1

2,得到a1这一步的动作价值

Q-target = R + γ*在状态S2中最优的下一步Q(s2, *a)的值

3,更新s1,a1这个状态的Q值

4,做出a1动作得到s2

Sara算法:

1,在环境S1中选出动作a1并得到S2

2,由环境S2选出将要下一步要进行的a2

3,由a1的奖励R,和Q(s2,a2)得到Q-target

 

4,由Q-target和原先的Q(s1,a1)去更新得到新的Q(s1,a1)

注:Q(s1,a1) = Q(s1, a1)+ α(Q-target - Q(s1,a1)) #  α是学习率

        二者在流程上是十分相似的,其区别在于Q-Learning在计算下一步的Q值时是用的S2状态中最好的那个Q值,但由于greedy在,所以实际上可能并不会采取这个动作。而Sara算法计算下一步Q值时是直接用已经得出的那个a2动作的Q值。

        换句话说,当走到S2这个状态时,如果S2是个“好状态”,那么Sara一定会选择最优的那一步a2,而Q-Learning可能会“冒险”选择其他动作(要看动作选择函数中的greedy police的值)。

        可以这么理解:面对一道难题,Sara比较老实,直接回答自己知道的答案,然后再检查自己这道题的是否拿到了分。而Q-Learning这个学生很聪明,他知道这道题(这个状态)的最优答案,但他也很调皮,他觉得这道题已经知道答案了所以先把这分加上,然后可能会去尝试其他答案。

        对于同样的(s1,a1)得到的S2,Sara是先做出了a2动作,再计算这个动作对应的Q值,而Q-learning是得到S2后思考这个S2这个状态最优的动作是什么后就加上这个最优动作的Q值,然后再去选动作。

        所以在模型训练表现上来看,Sara会看上去相对胆小,选错了就得到选错了的Q值,而Q-learning会更激进,哪怕选错了,也要得到这一步最优的Q值。

        在这个阶段,如果将greedy police(探索程度)的值设为1,也就是说Q-learning一定会选择计算Q-target时的那个动作,Sara也会选择S2对应的最优动作(不会选错),那么Q-learning和Sara算法某种程度上可以看做是一样的。(我个人看法)

这篇关于强化学习中Sara算法和Q-Learning算法的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/220530

相关文章

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

CSS Padding 和 Margin 区别全解析

《CSSPadding和Margin区别全解析》CSS中的padding和margin是两个非常基础且重要的属性,它们用于控制元素周围的空白区域,本文将详细介绍padding和... 目录css Padding 和 Margin 全解析1. Padding: 内边距2. Margin: 外边距3. Padd

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

分辨率三兄弟LPI、DPI 和 PPI有什么区别? 搞清分辨率的那些事儿

《分辨率三兄弟LPI、DPI和PPI有什么区别?搞清分辨率的那些事儿》分辨率这个东西,真的是让人又爱又恨,为了搞清楚它,我可是翻阅了不少资料,最后发现“小7的背包”的解释最让我茅塞顿开,于是,我... 在谈到分辨率时,我们经常会遇到三个相似的缩写:PPI、DPI 和 LPI。虽然它们看起来差不多,但实际应用

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

GORM中Model和Table的区别及使用

《GORM中Model和Table的区别及使用》Model和Table是两种与数据库表交互的核心方法,但它们的用途和行为存在著差异,本文主要介绍了GORM中Model和Table的区别及使用,具有一... 目录1. Model 的作用与特点1.1 核心用途1.2 行为特点1.3 示例China编程代码2. Tab

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时