▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based —

本文主要是介绍▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——＞ model-free】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PPT 截取必要信息。课程网站做习题。总体 MOOC 过一遍

1、视频 + 学堂在线习题
2、过电子书是否遗漏【下载：本章 PDF GitHub 页面链接】【第二轮才整理的，忘光了。。。又看了一遍视频】
3、过 MOOC 习题
看 PDF 迷迷糊糊，恍恍惚惚。

学堂在线课程页面链接
中国大学MOOC 课程页面链接
B 站视频链接

PPT和书籍下载网址：【GitHub链接】

文章目录

- 5.1 蒙特卡洛估计的基本思想
- - 大数定理
- —— 3 个基于蒙特卡洛的强化学习算法
- 5. 2 MC Basic
- 5.3 MC Exploring Starts
- 5.4 MC ε-Greedy：无需 exploring starts
- 5.5 $~~\varepsilon-$ greedy 策略的探索与利用

在这里插入图片描述

上次课程 model-based 【值迭代、策略迭代。动态规划】基于系统模型找最优策略
本次课程第一次介绍 model-free 方法

策略迭代方法是这次课的基础：把策略迭代中基于模型的部分替换成不需要模型的。
动态规划：值迭代、策略迭代【model-based】
基于模型的强化学习方法：用数据估计出一个模型，根据这个模型进行强化学习。

在这里插入图片描述

找最优策略：要么有模型，要么有数据
强化学习中的 “数据” 通常是指智能体与环境的交互经验。

5.1 蒙特卡洛估计的基本思想

P1
如何在没有模型的情况下估计一些量？ ——> 蒙特卡洛估计

针对硬币投掷问题，期望计算

方法一：当概率模型已知，基于概率模型进行计算。

有些问题对应的精确概率分布无法知晓

在这里插入图片描述

方法二：蒙特卡洛思想【多次投掷硬币，求平均值】

在这里插入图片描述

大数定律：大量样本的平均值接近期望值。

在这里插入图片描述

如果概率分布未知，那么我们可以多次抛硬币并记录采样结果 ${x_i\}_{i=1}^n$ 通过计算样本的平均值，我们可以得到均值的估计。
随着样本数量的增加，估计的均值越来越准确。

用于均值估计的样本必须是独立且同分布的 (i.i.d. 或 iid)。
否则，如果采样值相关，则可能无法正确估计期望值。
一个极端的情况是所有的采样值都和第一个相同，不管第一个是什么。在这种情况下，无论我们使用多少个样本，样本的平均值总是等于第一个样本。

大数定理

对于随机变量 $X$ ，假设 ${x_j\}_{j=1}^N$ 是独立同分布抽样。其中样本均值 $\bar{x}=\frac{1}{N}\sum\limits_{j=1}^Nx_j$ 。则
1、 $\bar{x}$ 是 $\mathbb{E}[X]$ 的无偏估计： $\mathbb{E}[\bar{x}]=\mathbb{E}[X]$
2、当 $\to \infty$ ，方差趋向 0。 $[\bar{x}]= \frac{1}{N}Var[X]$

样本均值的期望等于总体的期望
样本均值的方差等于总体方差的 $\frac{1}{N}$

证明：电子书补充 P90
$\mathbb{E}[\bar{x}] = \mathbb{E}[\frac{1}{N}\sum_{i=1}^Nx_i] =\frac{1}{N}\sum_{i=1}^N\mathbb{E}[x_i]\xlongequal{同分布}\mathbb{E}[X]$
同分布，则 $\mathbb E[x_i]=\mathbb E[X]$
$Var[\bar{x}] = Var[\frac{1}{N}\sum_{i=1}^Nx_i] \xlongequal{独立}\frac{1}{N^2}\sum_{i=1}^NVar[x_i]=\frac{1}{N^2}· N·Var[X]\xlongequal{同分布}\frac{1}{N}Var[X]$

在这里插入图片描述

蒙特卡洛估计：重复随机抽样近似

无需模型

状态值和动作值为随机变量期望

蒙特卡洛估计是指依靠重复随机抽样来解决近似问题的一大类技术。
为什么我们关心蒙特卡洛估计？因为它不需要模型！
为什么我们关心均值估计？因为状态值和动作值被定义为随机变量的期望！

为什么关心均值估计问题？
因为状态值和动作值都被定义为折扣回报的均值。
估计状态值或动作值实际上是一个均值估计问题。

$v_\pi(s)=\mathbb{E}[G_t|S_t=s]$
$q_\pi(s,a)=\mathbb{E}[G_t|S_t=s, A_t=a]$

—— 3 个基于蒙特卡洛的强化学习算法

MC Basic、MC Exploring Starts、MC ε-Greedy

5. 2 MC Basic

P2 - P3
如何将 策略迭代算法转成 model-free 方法？

蒙特卡洛均值估计

策略迭代算法在一次迭代中的两步：
策略评估： $v_{\pi_k} = r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}$
策略改进： $\pi_{k+1}=\arg\max\limits_{\pi}(r_\pi + \gamma P_\pi v_{\pi_k})$
————
其中
$\begin{align*}\pi_{k+1}(s) &=\arg\max_\pi\sum_a\pi(a|s)\Big[\sum_rp(r|s, a)r+\gamma\sum_{s^{\prime}} p(s^{\prime}|s, a)v_{\pi_k}(s^{\prime})\Big]\\ &= \arg \max_\pi \sum_a \pi(a|s) q_{\pi_k}(s, a), ~~ s \in \mathcal{S}\end{align*}$

两个步骤中，动作值是核心：第一步计算的状态值是为了第二步中动作值的计算，且第二步中新策略是基于动作值确定

选择最大的 $q_{\pi_k}(s, a)$ ，得到新的策略。
那么关键在于如何计算 $q_{\pi_k}(s, a)$ ？

修改动作值的求解公式：

方法一： model-based 策略迭代算法。

先通过求解贝尔曼公式计算状态值 $v_{\pi_k}$ ，再通过下式计算动作值。
$q_{\pi_k}(s, a)=\sum\limits_rp(r|s, a)r+\gamma \sum\limits_{s^{\prime}}p(s^{\prime}|s, a)v_{\pi_k}(s^{\prime})$
需要模型 $p (r ∣ s, a)$ 和 $p(s^{\prime}|s, a)$ 已知。奖励和状态转换的概率分布

公式二： model-free 无需模型，基于数据或经验 ✔

$q_{\pi_k}(s, a)=\mathbb{E}[G_t|S_t=s, A_t=a]\textcolor{blue}{\approx\frac{1}{n}\sum\limits_{i=1}^ng_{\pi_k}^{(i)}(s, a)}~~~~~$ 从定义出发

$G_t$ ：折扣回报
在这里插入图片描述

没有模型时，依赖数据。
数据在统计或概率里叫 sample，在强化学习里称为 experience经验。

求解流程：

在这里插入图片描述

第 $k$ 次迭代：
1、策略评估：对所有 $(s, a)$ ，求 $q_{\pi_k}$
从 $(s, a)$ 出发，得到很多 episodes[回合]，对所有 episode 的 return 求平均。

策略迭代：计算状态值 ——> 根据系统模型计算动作值。【需要奖励和状态转移概率已知】
MC Basic：直接通过数据得到 $q_{\pi_k}$ 。

2、策略改进：将动作改成最大 $q_{\pi_k}$ 对应的动作。

算法描述：
在这里插入图片描述

无模型算法直接估计 动作值。
否则，如果估计状态值，我们仍然需要使用系统模型从这些状态值计算动作值
在这里插入图片描述

——————
小结：
MC Basic 是策略迭代算法的变形

MC Basic 有助于揭示基于MC 的无模型 RL 的核心思想，但由于效率低，并不实用。

MC Basic 估计的是动作值 而不是状态值。

状态值无法直接用于改进策略，当系统模型不可获得，应直接估计动作值。

5.2.3 例子：

在这里插入图片描述

在这里插入图片描述
针对 $s_1$ 计算 5 个动作的。

环境和策略均确定，采样一次即可

在这里插入图片描述

1、从 $s_1, a_1)$ 开始。上移
episode： $s_1\xrightarrow{a_1}s_1\textcolor{blue}{\xrightarrow{a_1}s_1\xrightarrow{a_1}\cdots}$
$q_{\pi_0}(s_1, a_1)=-1+\gamma (-1)+\gamma^2(-1)+\cdots=(-1)\times\frac{1\times(1-\gamma^{(n+2)})}{1-\gamma}=\frac{-1}{1-\gamma}$

2、从 $s_1, a_2)$ 开始。右移
episode： $s_1\xrightarrow{a_2}s_2\xrightarrow{a_3}s_5\xrightarrow{a_3}s_8\xrightarrow{a_2}s_9\xrightarrow{a_5}s_9\xrightarrow{a_5}s_9\cdots$
$q_{\pi_0}(s_1, a_2)=0+\gamma0+\gamma^20+\gamma^31+\gamma^41+\gamma^51+\cdots=\frac{\gamma^3}{1-\gamma}~~$ ✔

3、从 $s_1, a_3)$ 开始。下移
episode： $s_1\xrightarrow{a_3}s_4\xrightarrow{a_2}s_5\xrightarrow{a_3}s_8\xrightarrow{a_2}s_9\xrightarrow{a_5}s_9\xrightarrow{a_5}s_9\cdots$
$q_{\pi_0}(s_1, a_3)=0+\gamma0+\gamma^20+\gamma^31+\gamma^41+\gamma^51+\cdots=\frac{\gamma^3}{1-\gamma}~~$ ✔

4、从 $s_1, a_4)$ 开始。左移
episode： $s_1\xrightarrow{a_4}s_1\textcolor{blue}{\xrightarrow{a_1}s_1\xrightarrow{a_1}\cdots}$
$q_{\pi_0}(s_1, a_4)=-1+\gamma (-1)+\gamma^2(-1)+\cdots=(-1)\times\frac{1\times(1-\gamma^{(n+2)})}{1-\gamma}=\frac{-1}{1-\gamma}$

5、从 $s_1, a_5)$ 开始。不动
episode： $s_1\xrightarrow{a_5}s_1\textcolor{blue}{\xrightarrow{a_1}s_1\xrightarrow{a_1}\cdots}$
$q_{\pi_0}(s_1, a_4)=0+\gamma (-1)+\gamma^2(-1)+\cdots=(-1)\times\frac{1\times(1-\gamma^{(n+2)})}{1-\gamma}=\frac{-\gamma}{1-\gamma}$

在这里插入图片描述

策略改进：让 $s_1$ 处选择执行动作 $a_2$ 或动作 $a_3$

——————————
练习：

在这里插入图片描述

$a_1$ ：上移
$a_2$ ：右移
$a_3$ ：下移
$a_4$ ：左移
$a_5$ ：不动

通过观察发现，应该让 $s_3$ 往左 🤣

讨论 $s_3$ 时，所有动作均纳入考量范围。
$s_3$ 上一个策略的动作的 $a_2$ 右移
若是再次进入当前状态，将采取之前策略的动作。

1、从 $s_3, a_1)$ 开始。上移撞墙
episode： $s_3\xrightarrow{a_1}s_3\textcolor{blue}{\xrightarrow{a_2}s_3\xrightarrow{a_2}\cdots}$
$q_{\pi_0}(s_3, a_1)=-1+\gamma (-1)+\gamma^2(-1)+\cdots=(-1)\times\frac{1\times(1-\gamma^{(n+2)})}{1-\gamma}=\frac{-1}{1-\gamma}$

2、从 $s_3, a_2)$ 开始。右移撞墙
episode： $s_3\xrightarrow{a_2}s_3\textcolor{blue}{\xrightarrow{a_2}s_3\xrightarrow{a_2}\cdots}$
$q_{\pi_0}(s_3, a_2)=-1+\gamma (-1)+\gamma^2(-1)+\cdots=(-1)\times\frac{1\times(1-\gamma^{(n+2)})}{1-\gamma}=\frac{-1}{1-\gamma}$

3、从 $s_3, a_3)$ 开始。下移进入禁止区
episode： $s_3\xrightarrow{a_3}s_6\xrightarrow{a_3}s_9\xrightarrow{a_5}s_9\xrightarrow{a_5}s_9\xrightarrow{a_5}s_9\cdots$
$q_{\pi_0}(s_3, a_3)=-1+\gamma1+\gamma^21+\gamma^31+\cdots=-1+\frac{1}{1-\gamma}=\frac{\gamma}{1-\gamma}~~$ ✔

4、从 $s_3, a_4)$ 开始。左移
episode： $s_3\xrightarrow{a_4}s_2\xrightarrow{a_3}s_5\xrightarrow{a_3}s_8\xrightarrow{a_2}s_9\xrightarrow{a_5}s_9\xrightarrow{a_5}s_9\xrightarrow{a_5}\cdots$
$q_{\pi_0}(s_3, a_4)=0+\gamma0+ \gamma^20+ \gamma^31+ \gamma^41+ \gamma^51+\cdots=\frac{\gamma^3}{1-\gamma}$

5、从 $s_3, a_5)$ 开始。不动
episode： $s_3\xrightarrow{a_5}s_3\textcolor{blue}{\xrightarrow{a_2}s_3\xrightarrow{a_2}s_3\xrightarrow{a_2}\cdots}$
$q_{\pi_0}(s_3, a_5)=0+\gamma(-1)+\gamma^2(-1)+\gamma^3(-1)+\cdots=\frac{-1}{1-\gamma}$

向下 $a_3$ 进入禁止区最大。！！！只是中间策略，还不是最优策略。

——————————————————————

示例 2：

episode 长度的影响

在这里插入图片描述

当 episode length 较短时，只有接近目标的状态具有非零状态值。
随着 episode length 的增加，距离目标较近的状态比距离目标较远的状态更早具有非零值。

长到足以找到目标即可。

————————
从一个状态出发，agent 必须至少经过一定的步数才能到达目标状态，然后才能获得正奖励。如果 episode length 小于所需的最小步数，回报为零，估计的状态值也为零。在本例中，episode length 必须不少于15，这是从左下角状态开始到达目标所需的最小步数。
上述分析涉及到一个重要的奖励设计问题——稀疏奖励，稀疏奖励是指除非达到目标，否则无法获得正奖励的情况。稀疏的奖励设置要求玩家的 episode 长度应足以达到目标。当状态空间很大时，这个需求很难满足。因此，稀疏奖励问题降低了学习效率。
在上述网格世界的例子中，我们可以重新设计奖励设置，使智能体在达到接近目标的状态时获得一个小的正奖励。这样可以在目标周围形成一个“吸引场”，使 agent 更容易找到目标。

——————

5.3 MC Exploring Starts

MC Basic 算法的优缺点：
1、优点：清晰揭示核心思想
2、缺点：过于简单不实用

具体原因：
在这里插入图片描述

对 MC Basic 算法进行改进：

在这里插入图片描述
高效使用数据：

first-visit：只有第一次遇到的时候估计，后续遇到不再进行估计。
every-visit：每次遇到都估计

在这里插入图片描述

就样本使用效率而言，every-visit 策略是最好的。
如果一个 episode 足够长，以至于它可以多次访问所有状态-动作对，那么这个 episode 可能足以使用 every-visit 策略估计所有动作值。然而，every-visit 策略获得的样本是相关的，因为从第二次访问开始的轨迹只是从第一次访问开始的轨迹的子集。然而，如果两次访问在轨迹上彼此距离较远，则相关性不强。

额外参数用于判断两次访问距离的远近？

5.3.2

何时更新策略?
方式一：在策略评估步骤中，收集从状态-动作对开始的所有 episodes，然后使用平均 return 来近似动作值。

MC Basic 算法所采用的。
agent 必须等到所有 episodes 都收集完毕。

方式二：使用单个 episode 的 return 来近似动作值。✔

得到一个 episode 的结果就改进
逐步改善策略

GPI: Generalized policy iteration

在 policy-evaluation 和 policy-improvement 进程间不断切换。

搜索最佳策略的方法： MC Exploring Starts 【MC Basic 的进阶版本】
1、episode 获取：状态-动作对集合
2、策略评估和改进

从后往前算

在这里插入图片描述

选择 MC Exploring Starts 的原因：
Exploring：理论上，只有充分探索了每个状态的每个动作值，我们才能选到最佳动作。如果一个行动没有被探索，这个行动可能恰好是最优的，这样错过了最佳动作。

从每一个 $(s, a)$ 出发，都要有 episode, 这样可以用后面的 reward 来估计 return，进一步估计 action value。

Starts：
要访问每一个 $(s, a)$ , 获取后面生成 reward 的数据。两个方式：
1、考虑从 $(s, a)$ 开始一个 episode,
2、从其它的 $(s, a)$ 开始，经过所需的 $(s, a)$ , 后面的数据也可以用于估计这个 $(s, a)$ 的 return 。【visit】

visit 的方式由于策略和环境的随机性，无法保证从某一个 $(s, a)$ 开始一定经过剩下的 $(s, a)$ 。

——> 对于任意一个 $(s, a)$ ，保证一定有一个 episode 从该 $(s, a)$ 开始。

在实践中，exploring starts 很难实现。对于许多应用，特别是那些涉及与环境进行物理交互的应用，很难从每个状态-动作对开始收集所有的 episodes。

5.4 MC ε-Greedy：无需 exploring starts

P5 - P6

exploring starts：要求每个状态-动作对都可以被访问足够多次。 ——> 软策略亦可达到

软策略：每一个 action 都有可能执行。

确定的策略：贪心策略
随机策略： soft policy 中的 $\varepsilon$ -greedy

soft policy：任一状态采取任一动作的概率均为正。

当有限个状态-动作对开始的 episodes 已经可以覆盖所有的状态-动作对，此时可以无需 exploring starts。

ε 贪心策略

$\pi(a|s)=\left\{ \begin{aligned} &1- \frac{\varepsilon}{|\mathcal{A}(s)|} (|\mathcal{A}(s)| - 1), &贪心动作\\ &\frac{\varepsilon}{|\mathcal{A}(s)|}, &其它动作\\ \end{aligned} \right.$

$\varepsilon\in[0, 1]$ ， $|\mathcal{A}(s)|$ 是动作集 $s$ 的长度。
选择贪心动作的几率总是大于其它动作。因为 $\frac{\varepsilon}{|\mathcal{A}(s)|} (|\mathcal{A}(s)| - 1) = 1-\varepsilon+\frac{\varepsilon}{|\mathcal{A}(s)|}\geq\frac{\varepsilon}{|\mathcal{A}(s)|}$

在这里插入图片描述

使用 $ε$ 贪心策略的原因：平衡 exploitation 和 exploration

exploitation VS exploration:
exploitation：充分利用。知道某个 action 的 action value 比较大，下一时刻马上实施该动作。

$ε$ = 0，贪心，看当前

exploration：探索。虽然知道某个 action 当前有更多的 reward, 但认为当前信息存在不完备问题，仍考虑探索其它 action。

$ε$ = 1，对每个动作的选择概率相同，均匀分布，探索性更强。

如何将 $ε$ 贪心策略运用到基于 MC 的强化学习算法？

$\Pi$ ：所有可能策略的集合
策略改进步骤：
$\pi_{k+1}(s)=\arg\max_{\pi\in \textcolor{blue}{\Pi}}\sum_{a}\pi(a|s)q_{\pi_k}(s, a)$
最优策略为：
$\pi_{k+1}(a|s)=\left\{ \begin{aligned} &1, &a = a_k^*\\ &0, &a \neq a_k^*\\ \end{aligned} \right.$
其中 $a_k^*=\arg\max\limits_{a}q_{\pi_k}(s, a)$
————————————————————
$\textcolor{blue}{\Pi_{\varepsilon}}$ ： $\varepsilon$ 给定时的 $\varepsilon$ 贪心策略集合
策略改进步骤：
$\pi_{k+1}(s)=\arg\max_{\pi \in \textcolor{blue}{\Pi}_{\varepsilon}}\sum_{a}\pi(a|s)q_{\pi_k}(s, a)$
最优策略为：
$\pi_{k+1}(a|s)=\left\{ \begin{aligned} & \textcolor{blue}{1-\frac{|\mathcal{A}(s)|-1}{|\mathcal{A}(s)|}\varepsilon}, &a = a_k^*\\ &\textcolor{blue}{\frac{1}{|\mathcal{A}(x)|}\varepsilon}, &a \neq a_k^*\\ \end{aligned} \right.$

$\Pi$ $\Pi$

在这里插入图片描述
————————

P6
$\varepsilon$ -greedy 的探索性

当 $\varepsilon$ 比较大时，探索性较强，可以不用 exploring starts 这样的条件。从某一些 (s, a) 对出发的 episodes 就能覆盖其它所有的 (s, a) 对。状态-动作对

在这里插入图片描述

$\varepsilon=1$ ，均匀分布，每个 action 的执行概率相等。

25 个状态，每个状态有 5 个 action。一共 25 * 5 = 125 个状态-动作 $(s, a)$ 对。

从访问次数可以看出，从某一些 $(s, a)$ 出发，即可覆盖其它所有的 $(s, a)$ 。

在这里插入图片描述
当 $\varepsilon$ 比较小时，当步数达到 1 万时，仍有状态-动作对未被探索到。

例子：
按照以下步骤运行 MC - greedy 算法：
在每次迭代中：在 episode 生成步骤中，使用之前的策略生成一个100万步的 episode !
在其余步骤中，使用单个 episode 更新策略。

两次迭代可以得到最优的 $\varepsilon$ -greedy 策略。

5.5 $~~\varepsilon-$ greedy 策略的探索与利用

$\varepsilon$ -greedy 策略：
探索性较强，不需要 exploring starts 条件。
获得的策略通常不是最优的。——> 设置较小的 $\varepsilon$

因为最终获得的策略只是 $\varepsilon$ -greedy 策略集合 $\Pi_{\varepsilon}$ 中的最优。

$\varepsilon$ 逐渐减小：一开始设置较大的，较强的探索能力；后面让 $\varepsilon$ 逐渐趋向于 0，增加获得最优策略的可能性。

例子：

在这里插入图片描述

随着 $\varepsilon$ 增大，所获得的最优策略变差。

如果策略中具有最大概率的行为是相同的，则两个 $\varepsilon$ 贪婪策略是一致的 (consistent)。

因此一般在后面让 $\varepsilon$ 逐渐趋向于 0。

exploration探索和 exploitation利用构成了强化学习的基本权衡。
探索意味着策略可以采取尽可能多的行动。这样，所有的动作都可以被访问和评估。
利用是指改进后的策略应采取动作值最大的贪心行为。但是，由于探索不够，目前得到的动作值可能不准确，所以我们在利用的同时要不断探索，避免遗漏最优动作。

$\varepsilon-$ greedy 策略提供了一种平衡探索和利用的方法。
一方面， $\varepsilon-$ greedy 策略采取贪心行为的概率更高，从而可以利用估计值。
另一方面， $\varepsilon-$ greedy 策略也有机会采取其他行动，使其能够继续探索。
$\varepsilon-$ greedy 策略不仅用于基于 MC 的强化学习算法，还用于其他强化学习算法，如第 7 章介绍的时间差分学习。

$\varepsilon$ 减小 ——> 利用
$\varepsilon$ 增大 ——> 探索

√ 5.6 小结：

MC Basic：这是最简单的基于 MC 的强化学习算法。该算法通过将策略迭代算法中基于模型的策略评估步骤替换为基于无模型 MC 的估计组件而获得。给定足够的样本，保证算法收敛到最优策略和最优状态值。
MC Exploring Starts：该算法是 MC Basic 的一个变体。MC Basic 算法可以采用 first-visit 策略或 every-visit 策略来更有效地利用样本。
MC $\varepsilon$ -Greedy：这个算法是 MC Exploring Starts 的一个变体。具体来说，在策略改进步骤中，它搜索最优的 $\varepsilon$ -greedy 策略，而不是贪心策略。这样可以增强策略的探索能力，从而消除 exploring starts 的条件。

exploration探索和 exploitation利用之间的权衡。随着 $\varepsilon$ 值的增大， $\varepsilon$ -greedy 策略的探索能力增强，贪心行为的利用减少。另一方面，如果 $\varepsilon$ 的值降低，我们可以更好地利用贪心行为，但探索能力下降。

————————————————
√ 5.7 Q&A

均值估计问题：基于随机样本计算随机变量的期望值。

免模型的基于 MC 的强化学习的核心思想：
将策略迭代算法中基于模型的策略评估步骤 ——> 免模型的基于 MC 的策略评估步骤。

initial-visit, first-visit, every-visit
它们是在一个回合episode 中使用样本的不同策略。
一个 episode 可能会访问在许多状态-动作组合中。
initial-visit 策略使用整个 episode 来估计初始状态-动作对的 动作值。【MC Basic】
every-visit 和 first-visit 策略可以更好地利用给定的样本。
如果在每次访问状态-动作对时，都用 episode 的其余部分估计其动作值，则这种策略称为 every-visit。【MC $\varepsilon$ -Greedy】
如果我们仅在状态-动作对第一次被访问时估计其动作值，这样的策略被称为 first-visit。

first-visit 和 every-visit 哪个好些呢？一般怎么选择用哪种？ P97
——> 样本使用效率上，every-visit 最好，但若是两次访问较近，可能存在相关性。
⭐ 可参考链接： https://deepgram.com/ai-glossary/monte-carlo-learning

——————
习题笔记：

均值估计：利用一些随机样本来估算一个随机变量的均值或期望。

研究均值估计问题的原因：状态值和动作值为随机变量期望

蒙特卡罗(Monte Carlo)估计在强化学习中的作用是什么？