drqn专题

深度强化学习之基于DRQN玩Doom游戏

DRQN 为何在希望DQN按人类水平玩Atari游戏时需要DRQN？要回答这个问题，首先要了解什么是部分可观测马尔科夫决策过程(POMDP)。当对环境只有有限信息时，该环境就称为POMDP。到目前为止，在前面的内容中，已了解一个完全可观测的MDP是已知所有可能的行为和状态，尽管智能体不知道转移概率和奖励概率，但对环境信息是完全已知的，例如，在建一个冰冻湖环境中，完全已知关于环境的所有状态