泛函分析(二)巴纳赫(Banach)不动点,贝尔曼方程(Bellman equation)在强化学习的应用

本文主要是介绍泛函分析(二)巴纳赫(Banach)不动点,贝尔曼方程(Bellman equation)在强化学习的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

      强化学习的目的是寻找最优策略。其中涉及两个核心概念最优状态值最优策略,以及贝尔曼最优公式。而贝尔曼最优公式用不动点原理求解地址,由Banach不动点定理可以知道,强化学习一定存在唯一的解(策略)  ,并且可以通过迭代求得。

1.贝尔曼方程

      贝尔曼方程在强化学习(RL)中无处不在,由美国应用数学家理查德·贝尔曼(Richard Bellman)提出,用于求解马尔可夫决策过程。

       贝尔曼最优性方程是一个递归方程,在有模型环境动态规划DP)算法求解时,可以通过求解该方程可以找到最优值函数和最优策略。

先提出三个概念

1.对于任何有限的MDP,都存在一个最佳策略π*,满足其他所有可能的策略π都不会比这个策略更好。

2.如果对于状态空间中的每个状态,使用π1派生的值函数在此状态的值都大于或等于使用π2派生的值函数在此状态的值,则可以说策略π1优于策略π2

3.采用巴拿赫不动点定理证明始终存在一个比所有其他策略都更好的策略,方法是证明贝尔曼最优算子是对带有L-无穷范数度量的实数完备度量空间上的闭映射。

2 巴纳赫不动点

2.1.距离空间

2.2.1 定义

简单理解:空间,就是在一个集合上定义某种规则(函数),且该规则适合集合内每一个元素。

        比如:对于海洋空间(集合),就是指“四大洋中所有的水分子(元素),在自然状态(规则)可以到达的任意位置的集合”。基于这个定义,四大洋合在一块是海洋空间,各自独立也是海洋空间,而水球内的空间不属于海洋空间,因为自然状态(规则)海洋的水无法进入。

距离空间:就是在一个集合上,定义两个点的距离函数(规则)对集合中任意两个点之间都成立。


2.2 延深理解

以下图为例,对上述定义公式进行文字化表述:

1.每个点和自己的距离为0,任两点间的距离为正数,

2.从A到B的距离,等同于从B到A的距离,

3.从A到B的距离小于等于从A先经过C再到B的距离。

带入1.1定义的公式,表述如下:

在集合S中,任意一个点,比如A点,A到A的距离为0;写成d(A,A)=0

在集合S中,任意两个点,比如A点B点(不重合),其距离大于0;写成d(A,B)> 0

在集合S中,任意三个点,比如A点B点C点(不重合),其距离有:B到A的距离,一定小于B到C的距离加上C到A的距离,写成:d(B,C)+d(C,A)\geqslant d(B,A)

2.压缩映射

f:X→X 是集合X到自身的一个映射,不动点就是指满足 f ( x ) = x  的任意点 x ∈ X .

压缩映射: ( X , d )  是一个距离空间,对映射 f : X → X 如果存在常数k,使得 0 < k < 1 ,且对任何 x , y ∈ X 有 d ( f ( x ) , f ( y ) ) ≤ k d ( x , y ) ,则称f为压缩映射。

简单理解:就是在映射之后两点的距离变短了(0< k < 1),就是压缩了
 

3.不动点原理

Banach 不动点定理如下:


解释:巴拿赫不动点定理通常被叫作压缩映射原理,它用构造性的方法证明了度量(距离)空间中某些特殊映射(压缩映射)不动点的存在性和唯一性。如果某个函数在某个点收敛,那么该函数在那个收敛点的值就是收敛点本身。因此,这个收敛点就是不动点

简单理解:我们可以想象有一张地图,然后将它按照不同的比例进行缩小,得到的每一张新图片和原图总是只有唯一的一个点重合!并且如果我们定义了一个压缩映射,则从图中任意一个点开始采用迭代法最后总能收敛到不动点。

数学应用

1.非线性常微分方程解的存在性

2.非线性两点边值问题的(经典)解的存在性

3.巴纳赫不动点解决贝尔曼方程(强化学习)

3.1柯西序列(补充)

      对于距离空间(X,d),空间元素组成的序列(x1,x2,x3 … xn)如果在某个点收敛(它们无限接近于某个点),这个序列就是柯西序列。

3.2求解最优值

如何求解最优值?
对于一个完整的度量空间,将压缩映射一遍又一遍地应用到集合的元素上,我们最终将得到唯一的一个最优值。我们知道:

  1. 压缩映射将集合中元素聚集到一起。

  2. 不断运用压缩映射,得到一个柯西序列

  3. 完备度量空间中的柯西序列始终会收敛自身中的一个值

3.3解决

 基于L-无穷范数度量:根据此度量空间范数的定义,两个值函数之间的距离等于两个值函数向量各方向绝对值之差的最大值。同样,对于有限奖励的有限MDP,值函数将始终在实数空间中。因此,此有限空间是完备的。此外贝尔曼算子B是压缩映射。

因此,根据巴拿赫不动点定理,我们得出结论
对每个MDP,存在唯一的最优值函数V *,使用这个值函数,我们可以得到最优策略π *。

因此证明,对于任何有限的MDP,都存在一个最优策略π *,不差于其他所有可能的策略π。

策略迭代和值迭代的区别
      1.策略迭代选择初始随机策略,通过策略评估-策略改进-反复迭代直至策略最优;
      2.价值迭代利用Banach不动点定理,迭代的方法求解Bellman最优方程,通过寻找最优价值函数,再提取最优策略,因为值函数一旦最优,那么策略也一定最优(保证收敛),策略迭代更快速高效一点。

      策略迭代和价值迭代都用到了动态规划方法和自益的思想。

不动点在强化学习中的应用参考:地址

不动点在GNN中的应用参考:地址

参考文献

1.【泛函分析】距离空间和赋范空间_距离空间和赋反空间-CSDN博客

2.机器学习系列5:距离空间(1)_距离空间中b(1,4)表示什么)-CSDN博客 

3.(I)Banach空间和不动点定理 (1) - 知乎 

4.泛函分析笔记(十) 不动点定理及其应用_f(x)到xf(x)的是什么映射-CSDN博客 

4.强化学习之动态规划_策略改进定理-CSDN博客 

5.巴拿赫不动点定理_证明不动点巴拿赫空间-CSDN博客 

6.参考书:强化学习:原理与Python实现 

7.强化学习:贝尔曼最优公式_~hello world~的博客-CSDN博客 

8.转载:强化学习中Bellman最优性方程背后的数学原理?_贝尔曼最优性原理_IEEEagent RL的博客-CSDN博客 

这篇关于泛函分析(二)巴纳赫(Banach)不动点,贝尔曼方程(Bellman equation)在强化学习的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/188782

相关文章

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专