深入理解强化学习——强化学习的局限性与适用范围

本文主要是介绍深入理解强化学习——强化学习的局限性与适用范围，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

强化学习十分依赖“状态”这个概念，它既作为策略和价值函数的输人，又同时作为模型的输人与输出。一般，我们可以把状态看作传递给智能体的一种信号，这种信号告诉智能体“当前环境如何"。我们使用的通过马尔可夫决策过程框架给出的状态的正式定义将在《深入理解强化学习》系列后面的文章中介绍。一般来说，我们鼓励读者顺着非正式的定义思考状态的含义，把它理解为当前智能体可知的环境信息。实际上，我们认为状态产生自一些预处理系统，这些系统从逻辑上说是智能体周边环境的一部分。

《深入理解强化学习》系列很多文章中讨论的大多数强化学习方法建立在对价值函数的估计上。但是这并不是解决强化学习问题的必由之路。举个例子，一些优化方法，如遗传算法、遗传规划、模拟退火算法以及其他一些方法，都可以用来解决强化学习问题，而不用显式地计算价值函数。这些方法采取大量静态策略，每个策略在扩展过的较长时间内与环境的一个独立实例进行交互。这些方法选择获取了最多收益的策略及其变种来产生下一代的策略，然后继续循环更新。我们称其为进化方法，因为这类方法与生物进化的过程十分类似，即使这类方法在单个个体的生命周期中不进行学习。如果策略空间充分小，或者可以很好地结构化以找到好的策略，或者我们有充分的时间来搜索，那么进化方法是有效的。另外，进化方法在那些智能体不能精确感知环境状态的问题上具有优势。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

这篇关于深入理解强化学习——强化学习的局限性与适用范围的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！