本文主要是介绍强化学习入门(Matlab2021b)-创建策略和价值函数【1(上)】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
- 1 前言
- 2 Actors和Critics
- 3 策略对象
- 4 查找表
- 5 基函数
- 5.1 Critics
- 5.2 Actors
1 前言
1、策略(policy)是从环境观测值到计划采取动作的概率分布的映射。
2、价值函数(value/Q-valua function)是从环境观测值(或观测-动作)到策略值的映射。
3、策略的价值被定义为最大化期望累积奖励。
强化学习智能体使用参数化策略和价值函数,它们分别由称为Actors和Critics的函数近似器实现。在训练期间,Actors学习选择可采取最佳动作的策略,即通过调整参数使产生更大价值的动作具备更大的概率。Critics学习估计当前策略价值的价值函数,即通过调整参数使预测的奖励接近观察到的奖励。
在创建非默认智能体之前,必须使用近似模型(如深度神经网络、线性基函数或查找表)创建Actors和Critics,可以使用的函数逼近器类型和模型取决于要创建的智能体类型。
2 Actors和Critics
Reinforcement Learning Toolbox软件支持以下类型的Actors和Critics:
类型 | 说明 |
---|---|
V ( S ∣ θ V ) V(S|\theta_V) V(S∣θV) | Critics根据给定的观察值 S S S来估计策略的期望累积奖励,可使用rlValueFunction创建Critics。 |
Q ( S , A ∣ θ Q ) Q(S,A|\theta_Q) Q(S,A∣θQ) | Critics根据给定的离散动作 A A A和给定的观测 S S S,估计策略的期望累积奖励,可使用rlQValueFunction创建Critics。 |
这篇关于强化学习入门(Matlab2021b)-创建策略和价值函数【1(上)】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!