人工智障学习笔记——强化学习(2)基于模型的DP方法

2024-01-10 06:08

本文主要是介绍人工智障学习笔记——强化学习(2)基于模型的DP方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上一章我们引入了马尔科夫决策过程的概念:

马尔可夫决策过程是一个五元组(S,A,P(),R(),γ) 其中:
1)S是一组有限的状态,即状态集 (states)
2)A是一组有限的行为(或者,As 是从状态可用的有限的一组行动s),即动作集 (Action)
3)Pa(s,s')=Pr(st+1=s'midst=s,at=a)表示状态 s 下采取动作 a 之后转移到 s' 状态的概率
4)Ra(s,s')是状态 s 下采取动作 a 获得的奖励(或期望的直接奖励)
5)γ→[0,1]是折现系数,代表未来奖励与现在奖励之间的重要差异,也叫做衰减因子

同时我们知道强化学习的目标是找到最优策略π使得累计回报的期望最大。我们也可以这样理解,强化学习可以看作为序列决策问题。即找到一个决策序列使得目标函数最优。所谓的累积回报其背后的含义是评价策略完成任务的回报,所以目标函数等价于任务。强化学习的直观目标是找到最优策略,其目的是更好地完成任务。回报函数对应着具体的任务,所以强化学习所学到的最优策略是跟具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。

强化学习可以分为两大类,根据马尔可夫决策过程五元组(S,A,P(),R(),γ)里的转移概率P是否已知,可以分为基于模型的强化方法和基于无模型的强化学习方法。

基于模型的强化学习可以利用动态规划(dynamic programming)的思想来解决。想了解动态规划的同学可以参考ACM分类里的一些关于动态规划的文章http://blog.csdn.net/sm9sun/article/details/53240542

(不过都是少年时期的代码了,有点LOW)


我们已知满足动态规划的几个基本性质:

一、最优子结构

二、子问题重叠

三、同级问题独立

简单来说就是整个优化问题可以分解为多个子优化问题,子优化问题的解可以被存储和重复利用。

马尔科夫决策过程利用贝尔曼最优性原理得到贝尔曼最优化方程:


从方程中可以看到,马尔科夫决策问题符合使用动态规划的两个条件,因此可以利用动态规划解决马尔科夫决策过程的问题。动态规划的核心是找到最优值函数。经典DP算法在强化学习中的实用性有限,因为他们假定了一个具体的模型,并且还受限于它们的计算cost很高,但它在理论上仍然很重要。

通用策略迭代是: 
1. 先从一个策略π0开始, 
2. 策略评估(Policy Evaluation) - 得到策略π0的价值vπ0 
3. 策略改善(Policy Improvement) - 根据价值vπ0,优化策略π0。 
4. 迭代上面的步骤2和3,直到找到最优价值v*,因此可以得到最优策略π*(终止条件:得到了稳定的策略π和策略价值vπ)。 

这个被称为通用策略迭代(Generalized Policy Iteration)。 

策略评估是通过状态值函数来实现的,值函数定义为(S+比S多了一个终止状态): 


此时,s状态的值函数是由其他所有状态在策略π下的值函数确定,这是无法计算的。所以DP通过当前的策略π计算下一时刻的状态值函数。在多次迭代后(k→∞),vk≈vπ 


而策略改善通过最大化动作状态值函数实现的:


价值迭代方法是对上面所描述的方法的一种简化: 
在策略评估过程中,对于每个状态s,只找最优(价值是最大的)行动a。这样可以减少空间的使用。步骤如下: 
1. 初始化 - 所有状态的价值(比如:都设为0)。 
2. 初始化 - 一个等概率随机策略π0(the equiprobable random policy) 
3. 策略评估 

对于每个状态s,只找最优(价值是最大的)行动a。即: 

一般来说值迭代和策略迭代都需要经过无数轮迭代才能精确的收敛到V*和π*, 而实践中,我们往往设定一个阈值来作为中止条件,即当Vπ(s)值改变很小时,我们就近似的认为获得了最优策略。在折扣回报的有限MDP(discounted finite MDPs)中,进过有限次迭代,两种算法都能收敛到最优策略π*。
至此我们了解了马尔可夫决策过程的动态规划解法,动态规划的优点在于它有很好的数学上的解释,但是动态要求一个完全已知的环境模型,这在现实中是很难做到的。另外,当状态数量较大的时候,动态规划法的效率也将是一个问题。

vπ

这篇关于人工智障学习笔记——强化学习(2)基于模型的DP方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/589809

相关文章

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

JavaScript DOM操作与事件处理方法

《JavaScriptDOM操作与事件处理方法》本文通过一系列代码片段,详细介绍了如何使用JavaScript进行DOM操作、事件处理、属性操作、内容操作、尺寸和位置获取,以及实现简单的动画效果,涵... 目录前言1. 类名操作代码片段代码解析2. 属性操作代码片段代码解析3. 内容操作代码片段代码解析4.

SpringBoot3集成swagger文档的使用方法

《SpringBoot3集成swagger文档的使用方法》本文介绍了Swagger的诞生背景、主要功能以及如何在SpringBoot3中集成Swagger文档,Swagger可以帮助自动生成API文档... 目录一、前言1. API 文档自动生成2. 交互式 API 测试3. API 设计和开发协作二、使用

python忽略warnings的几种方法

《python忽略warnings的几种方法》本文主要介绍了几种在Python忽略警告信息的方法,,可以使用Python内置的警告控制机制来抑制特定类型的警告,下面就来介绍一下,感兴趣的可以了解一下... 目录方法 1: 使用 warnings 模块过滤特定类型和消息内容的警告方法 2: 使用 warnin