首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
banach专题
泛函分析(二)巴纳赫(Banach)不动点,贝尔曼方程(Bellman equation)在强化学习的应用
前言 强化学习的目的是寻找最优策略。其中涉及两个核心概念最优状态值和最优策略,以及贝尔曼最优公式。而贝尔曼最优公式用不动点原理求解地址,由Banach不动点定理可以知道,强化学习一定存在唯一的解(策略) ,并且可以通过迭代求得。 1.贝尔曼方程 贝尔曼方程在强化学习(RL)中无处不在,由美国应用数学家理查德·贝尔曼(Richard Bellman)提
阅读更多...