强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下)

本文主要是介绍强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

马尔可夫决策过程组成

策略

智能体的策略policy通常用 π \pi π 表示,即 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi (a|s)=P(A_t=a|S_t=s) π(as)=P(At=aSt=s) ,在输入状态s的情况下采取动作a的概率。

状态价值函数

价值定义为从状态出发遵循策略能获得的期望回报,数学表达为:
V π ( s ) = E π [ G t ∣ S t = s ] V^{\pi}(s)=\mathbb{E}_\pi [G_t|S_t=s] Vπ(s)=Eπ[GtSt=s]

动作价值函数

遵循策略时,对当前状态 s 执行动作 a 得到的期望回报:
Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a] Qπ(s,a)=Eπ[GtSt=s,At=a]
在使用该策略的情况下,状态s的价值(期望回报)等于该状态下基于此策略采用所有动作的概率与相应价值相乘的和
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^\pi(s)=\sum_{a\in A}\pi(a|s)Q^\pi(s,a) Vπ(s)=aAπ(as)Qπ(s,a)

贝尔曼期望方程

在贝尔曼方程中加上“期望”二字是为了与接下来的贝尔曼最优方程进行区分。
V π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + γ G t + 1 ∣ S t = s ] \begin{aligned} V^{\pi}(s)&=\mathbb{E}_\pi [G_t|S_t=s]\\ &=\mathbb{E}_\pi [R_t+\gamma G_{t+1}|S_t=s] \end{aligned} Vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]
因为 r 是奖励的期望,那么该策略下的价值为
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( r ( s , a ) + γ E π [ G t + 1 ∣ S t = s ] ) V^\pi(s)=\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma \mathbb{E}_\pi [ G_{t+1}|S_t=s]) Vπ(s)=aAπ(as)(r(s,a)+γEπ[Gt+1St=s])
注意后面是 G t + 1 G_{t+1} Gt+1 ,而不是 G t G_t Gt ,那么就需要将下一个状态是什么的所有可能性包括在内进行计算,因此引出状态转移概率,得到状态价值函数的贝尔曼方程:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V^\pi(s)=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right) Vπ(s)=aAπ(as)(r(s,a)+γsSp(ss,a)Vπ(s))
下一个状态的概率乘以下一个状态的期望,求和之后,则为所有可能发生的状态对应的期望的期望。

去掉前面的策略求和,可得动作价值函数的贝尔曼方程:
Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in S}p(s^{\prime}|s,a)\sum_{a^{\prime}\in A}\pi(a^{\prime}|s^{\prime})Q^\pi(s^{\prime},a^{\prime}) Qπ(s,a)=r(s,a)+γsSp(ss,a)aAπ(as)Qπ(s,a)

最优策略

总有一个策略大于等于所有策略,称之为最优策略。
V ∗ ( s ) = max ⁡ a ∈ A { r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V ∗ ( s ′ ) } Q ∗ ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) max ⁡ a ′ ∈ A Q ∗ ( s ′ , a ′ ) \begin{gathered}V^*(s)=\max_{a\in\mathcal{A}}\{r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)V^*(s^{\prime})\}\\Q^*(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)\max_{a^{\prime}\in\mathcal{A}}Q^*(s^{\prime},a^{\prime})\end{gathered} V(s)=aAmax{r(s,a)+γsSp(ss,a)V(s)}Q(s,a)=r(s,a)+γsSp(ss,a)aAmaxQ(s,a)

这篇关于强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/577193

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

hdu1565(状态压缩)

本人第一道ac的状态压缩dp,这题的数据非常水,很容易过 题意:在n*n的矩阵中选数字使得不存在任意两个数字相邻,求最大值 解题思路: 一、因为在1<<20中有很多状态是无效的,所以第一步是选择有效状态,存到cnt[]数组中 二、dp[i][j]表示到第i行的状态cnt[j]所能得到的最大值,状态转移方程dp[i][j] = max(dp[i][j],dp[i-1][k]) ,其中k满足c

在JS中的设计模式的单例模式、策略模式、代理模式、原型模式浅讲

1. 单例模式(Singleton Pattern) 确保一个类只有一个实例,并提供一个全局访问点。 示例代码: class Singleton {constructor() {if (Singleton.instance) {return Singleton.instance;}Singleton.instance = this;this.data = [];}addData(value)

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学