alphazero专题

不只是围棋！AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero

在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后，这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天，AlphaGo 研究团队提出了 AlphaZero：一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称，新的算法经过不到 24 小时的训练后，可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序（这些程序早已超越