本文主要是介绍Mastering 2048 With Delayed Temporal Coherence Learning, Multistage Weight Promotion论文分享,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
0 摘要
2048 是一款引人入胜的单人非确定性视频益智游戏,由于简单的规则和难以掌握的游戏玩法,近年来广受欢迎。由于 2048 可以方便地嵌入到离散状态马尔可夫决策过程框架中,我们将其视为评估强化学习中现有和新方法的测试平台。为了开发一个强大的 2048 播放程序,我们采用时间差异学习和系统的 n 元组网络。我们表明,这种基本方法可以通过时间相干学习、具有权重提升的多级函数逼近器、轮播整形和冗余编码得到显着改进。此外,我们演示了如何利用 n 元组网络的特性,通过延迟(衰减)更新和应用无锁乐观并行性来轻松利用多个 CPU 内核来提高学习过程的算法有效性.通过这种方式,我们能够开发出迄今为止最著名的 2048 播放程序,这证实了所引入的离散状态马尔可夫决策问题方法的有效性。
这篇关于Mastering 2048 With Delayed Temporal Coherence Learning, Multistage Weight Promotion论文分享的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!