论文结果难复现？本文教你完美实现深度强化学习算法DQN

本文主要是介绍论文结果难复现？本文教你完美实现深度强化学习算法DQN，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

选自arXiv

作者：Melrose Roderick等

机器之心编译

论文的复现一直是很多研究者和开发者关注的重点，近日有研究者详细论述了他们在复现深度 Q 网络所踩过的坑与训练技巧。本论文不仅重点标注了实现过程中的终止条件和优化算法等关键点，同时还讨论了实现的性能改进方案。机器之心简要介绍了该论文，更详细的实现细节请查看原论文。

过去几年来，深度强化学习逐渐流行，因为它在有超大状态空间（state-spaces）的领域上要比先前的方法有更好的表现。DQN 几乎在所有的游戏上超越了之前的强化学习方法，并在大部分游戏上比人类表现更好。随着更多的研究人员用深度强化学习方法解决强化学习问题，并提出替代性算法，DQN 论文的结果经常被用作展示进步的基准。因此，实现 DQN 算法对复现 DQN 论文结果和构建原算法都很重要。

我们部署了一个 DQN 来玩 Atari 游戏并重复 Mnih 等人的结果。我们的实现要比原始实现快 4 倍，且已经在网上开源。此外，该实现在设计上，对不同的神经网络架构、ALE 之外领域也更为灵活。在重复这些结果时，我们发现实现这些系统的过程的几个关键。在这篇论文中，我们强调了一些关键的技术，这些技术对于获得优良的性能和重复 Mnih 等人的结果是很基本的，其中包括了终止条件和梯度下降优化算法，以及算法的期望结果（也就是网络的性能波动）。

论文：Implementing the Deep Q-Network

论文地址：https://arxiv.org/abs/1711.07478

Mnih 等人在 2015 年提出的深度 Q 网络已经成为了一项基准，也是许多深度强化学习研究的基点。然而，复现复杂系统的结果总是非常难，因为最初的文献经常无法详细描述每个重要的参数和软件工程的解决方案。在此论文中，我们复现了 DQN 的论文结果。此外，我们重点标注了实现过程中的关键点，从而让研究人员能更容易地复现结果，包括终止条件、梯度下降算法等。而这些点是原论文没有详细描述的。最后，我们讨论了改进计算性能的方法，并给出我们的实现，该实现可广泛应用，而不是只能在原论文中的 Arcade 学习环境（ALE）中实现。

3 深度 Q 学习