banach专题

泛函分析（二）巴纳赫（Banach）不动点，贝尔曼方程（Bellman equation）在强化学习的应用

前言强化学习的目的是寻找最优策略。其中涉及两个核心概念最优状态值和最优策略，以及贝尔曼最优公式。而贝尔曼最优公式用不动点原理求解地址，由Banach不动点定理可以知道，强化学习一定存在唯一的解（策略） ,并且可以通过迭代求得。 1.贝尔曼方程贝尔曼方程在强化学习（RL）中无处不在，由美国应用数学家理查德·贝尔曼（Richard Bellman）提