【深度强化学习】策略梯度方法:REINFORCE、Actor-Critic

2023-12-17 13:04

本文主要是介绍【深度强化学习】策略梯度方法:REINFORCE、Actor-Critic,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考 
Reinforcement Learning, Second Edition  
An Introduction 
By Richard S. Sutton and Andrew G. Barto

非策略梯度方法的问题

之前的算法,无论是 MC,TD,SARSA,Q-learning, 还是 DQN、Double DQN、Dueling DQN,有至少两个问题:

  1. 都是处理离散状态、离散动作空间的问题,当需要处理连续状态 / 连续动作的时候,如果要使用这些算法,就只能把状态 / 动作离散化处理,这会导致实际相邻的 Q ( s , a ) Q(s,a) Q(s,a) 的值没有联系,变化不光滑,并且随着离散空间变大,max 的比较操作需要的计算量增大,这导致不能把离散化的分辨率无限地增高。
  2. 都利用对 V π V_\pi Vπ Q π Q_\pi Qπ arg max ⁡ a \argmax_a argmaxa 来得到策略 π \pi π,会导致只会选最优的动作,尽管有次优的动作,算法也不会去选,只会选最好的,在某些需要随机性的场景(如:非完全信息博弈(军事、牌类游戏))会产生大问题,因为行为比较有可预测性,很容易被针对。(即使有 ϵ \epsilon ϵ-贪心)

在非完全信息的纸牌游戏中,最优的策略一般是以特定的概率选择两种不同玩法,例如德州扑克中的虚张声势

我们想要的是右边的策略,它能够给出一个所有动作概率都介于(0,1)的分布,并从中进行随机采样一个动作,而不是只有一个动作的值是最突出的

策略梯度

策略梯度可以同时解决以上两个问题。
我们将策略参数化为 π ( a ∣ s , θ ) \pi(a|s, \theta) π(as,θ)(可以是简单的线性模型+softmax,也可以是神经网络),这个策略可以被关于 θ \theta θ求导: ∇ θ π ( a ∣ s , θ ) \nabla_\theta \pi(a|s,\theta) θπ(as,θ),简写为 ∇ π ( a ∣ s ) \nabla \pi(a|s) π(as)

策略梯度的直觉

我们实际上想找到一个更新策略 π ( a ∣ s , θ ) \pi(a|s,\theta) π(as,θ) 的方法,它在 θ \theta θ参数空间里面:

  • 如果往一个方向走,能对给定的 ( s t , a t ) (s_t,a_t) (st,at)获得正的回报 G t G_t Gt,就往这个方向走,并且回报绝对值越大走的步子越大
  • 如果往一个方向走,能对给定的 ( s t , a t ) (s_t,a_t) (st,at)获得负的回报 G t G_t Gt,就不往这个方向走,并且回报绝对值越大走的步子越大

和梯度下降类似,可以得到:
θ t + 1 ← θ t + α G t ∇ π ( a t ∣ s t ) \theta_{t+1} \leftarrow \theta_t + \alpha G_t \nabla \pi(a_t|s_t) θt+1θt+αGtπ(atst)

除以 π \pi π 变成 Ln

单纯这样更新会有问题,因为如果 π \pi π被初始化为存在一个次优动作(具有正回报),并且概率很大,而最优动作的概率很小,那么这个次优动作就很可能被不断地强化,导致无法学习到最优动作。

如果有三个动作,奖励是10,5,-7,对应的概率和箭头长度相同,那么5这个动作会被不断强化,因为它的初始采样概率很大
因此我们要除一个动作的概率,得到修正后的版本:

θ t + 1 ← θ t + α G t ∇ π ( a t ∣ s t ) π ( a t ∣ s t ) \theta_{t+1} \leftarrow \theta_t + \alpha G_t \frac{\nabla \pi(a_t|s_t)}{\pi(a_t|s_t)} θt+1θt+αGtπ(atst)π(atst)

也就是
θ t + 1 ← θ t + α G t ∇ ln ⁡ π ( a t ∣ s t ) \theta_{t+1} \leftarrow \theta_t + \alpha G_t \nabla \ln{\pi(a_t|s_t)} θt+1θt+αGtlnπ(atst)

REINFORCE

如果这个 G t G_t Gt 是由 MC 采样整个序列得到的,那么就得到了 REINFORCE 算法:
在这里插入图片描述

带基线的 REINFORCE

在这里插入图片描述
唯一的区别:TD target 从 G t G_t Gt 变成 G t − v ^ ( S t , w ) G_t - \hat v(S_t,\mathbf{w}) Gtv^(St,w),并且多一个价值网络,也进行跟更新。
好处:

  1. 减小方差
  2. 加快收敛速度

基线的直觉:
把 TD target 从全为正变成有正有负,更新的时候更有区分度。

Actor-Critic

在这里插入图片描述
再把 TD target 变化一下,从多步(MC)变成单步(TD),其他和 REINFORCE 一样。
之所以叫做 Actor-Critic 就是把基线 v ^ ( S , w ) \hat v(S,\mathbf{w}) v^(S,w) 当作评论家,它评价状态的好坏;而 π ( A ∣ S ) \pi(A|S) π(AS) 当作演员,尝试去按照评论家的喜好(体现为 TD target 用评论家来进行估计)来做动作。

总结

REINFORCE:MC,更新慢
δ = G t \delta =\red{ G_t} δ=Gt
θ t + 1 ← θ t + α δ ∇ ln ⁡ π ( A t ∣ S t ) \theta_{t+1} \leftarrow \theta_t + \alpha \delta \nabla \ln{\pi(A_t|S_t)} θt+1θt+αδlnπ(AtSt)
基线 REINFORCE:MC,更新慢,但是有基线,方差较小,收敛快,调参难度大一些
δ = G t − v ^ ( S t , w ) \delta = \red{G_t-\hat v(S_{t},\mathbf{w})} δ=Gtv^(St,w)
w t + 1 ← w t + α w δ ∇ v ^ ( S t ) \blue{\mathbf{w}_{t+1} \leftarrow \mathbf{w}_t + \alpha_{\mathbf{w}} \delta \nabla {\hat v(S_t)}} wt+1wt+αwδv^(St)
θ t + 1 ← θ t + α θ δ ∇ ln ⁡ π ( A t ∣ S t ) \theta_{t+1} \leftarrow \theta_t + \alpha_{\theta} \delta \nabla \ln{\pi(A_t|S_t)} θt+1θt+αθδlnπ(AtSt)
Actor-Critic:TD,更新快,调参难度大一些
δ = R t + γ v ^ ( S t ′ , w ) − v ^ ( S t , w ) \delta = \red{R_t+\gamma \hat v(S'_{t},\mathbf{w})-\hat v(S_{t},\mathbf{w})} δ=Rt+γv^(St,w)v^(St,w)
w t + 1 ← w t + α w δ ∇ v ^ ( S t ) \blue{\mathbf{w}_{t+1} \leftarrow \mathbf{w}_t + \alpha_{\mathbf{w}} \delta \nabla {\hat v(S_t)}} wt+1wt+αwδv^(St)
θ t + 1 ← θ t + α θ δ ∇ ln ⁡ π ( A t ∣ S t ) \theta_{t+1} \leftarrow \theta_t + \alpha_{\theta} \delta \nabla \ln{\pi(A_t|S_t)} θt+1θt+αθδlnπ(AtSt)

这篇关于【深度强化学习】策略梯度方法:REINFORCE、Actor-Critic的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/504457

相关文章

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S

MyBatis-Plus 中 nested() 与 and() 方法详解(最佳实践场景)

《MyBatis-Plus中nested()与and()方法详解(最佳实践场景)》在MyBatis-Plus的条件构造器中,nested()和and()都是用于构建复杂查询条件的关键方法,但... 目录MyBATis-Plus 中nested()与and()方法详解一、核心区别对比二、方法详解1.and()

golang中reflect包的常用方法

《golang中reflect包的常用方法》Go反射reflect包提供类型和值方法,用于获取类型信息、访问字段、调用方法等,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值... 目录reflect包方法总结类型 (Type) 方法值 (Value) 方法reflect包方法总结

C# 比较两个list 之间元素差异的常用方法

《C#比较两个list之间元素差异的常用方法》:本文主要介绍C#比较两个list之间元素差异,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 使用Except方法2. 使用Except的逆操作3. 使用LINQ的Join,GroupJoin

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

一文详解Git中分支本地和远程删除的方法

《一文详解Git中分支本地和远程删除的方法》在使用Git进行版本控制的过程中,我们会创建多个分支来进行不同功能的开发,这就容易涉及到如何正确地删除本地分支和远程分支,下面我们就来看看相关的实现方法吧... 目录技术背景实现步骤删除本地分支删除远程www.chinasem.cn分支同步删除信息到其他机器示例步骤