决策AI新突破,腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台

2023-12-13 22:50

本文主要是介绍决策AI新突破,腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

感谢阅读腾讯 AI Lab 微信号第 170 篇文章。本文介绍腾讯 AI Lab 棋牌类 AI「绝艺」LuckyJ 的最新研究进展:它于日前在国际知名麻将平台「天凤」上达到十段水平,刷新了 AI 在麻将领域的最好成绩。

7 月 11 日,腾讯 AI Lab 宣布棋牌类 AI 「绝艺」 LuckyJ 在国际知名麻将平台「天凤」上达到十段水平,刷新了 AI 在麻将领域的最好成绩,体现了在非完美信息博弈游戏中的优秀决策水平,进一步提升 AI 解决现实世界问题的能力。

麻将对战中,因为无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈,涉及大量的决策点。同样的,现实世界中也充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等,因而,在麻将对战中训练的 AI,在这类场景中有着巨大的应用前景。

195439700b534a345e7230fdb94dfcf7.png

「天凤」平台创建于 2006 年,拥有体系化的竞技规则和专业段位规则,受到职业麻将界的广泛认可。截至目前,天凤平台活跃人数 23.8 万,而能达到十段的仅 27 人(含 AI),不到万分之一。

相比其他麻将 AI 和人类玩家,「绝艺 LuckyJ」不仅稳定段位更高,从零开始达到十段所需的对战局数也明显更少,仅需要 1321 局。这体现了腾讯 AI Lab 在决策 AI 方向上世界领先的技术实力。

2d8fb42a5e413fb2de4ec279642bf4ae.png

相比其他麻将 AI 和人类玩家,绝艺 LuckyJ 稳定段位更高,从零开始达到十段所需的对战局数也明显少,仅需要 1321 局

d67fa8425de0d0e93221099e7771d176.png

天凤稳定段位 bootstrap 的分布,绝艺 LuckyJ 显著强于之前最强的两个日本麻将 AI(Suphx,NAGA)。LuckyJ vs Suphx  p value=0.02883;LuckyJ vs NAGA   p value=3e-05

值得一提的是,此前「绝艺 LuckyJ」在国标麻将中也有亮眼表现,在线下职业选手邀请赛中,成功击败六位职业选手,成为首个战胜国标麻将顶尖职业选手的麻将 AI。

d2270c4ab3fc001de0d7a68041ad8fe0.png

对战数据显示,在近 2000 场对局中,绝艺 LuckyJ 的平均赢番达到 1.76 番。番为国标麻将的结算单位,数值越大,说明赢得越多。

105e27372e25c3366115d0067d4e9180.png5635ff64fba0aa2e8750a2427e70c77a.png

非完美信息博弈

麻将AI需要更强大的决策能力

过去半个世纪以来,游戏在人工智能的技术演变中一直都扮演了重要的角色,其多样化的情境为 AI 的训练和学习提供了便利的研究场景。从国际象棋到围棋,再到德州扑克、王者荣耀等游戏,AI 不断在游戏场景中拓展能力边界。腾讯 AI Lab 自研的「绝艺」、「绝悟」两款决策 AI,借助棋牌、MOBA 等多类游戏场景,探索用 AI 解决现实中的复杂问题。

不同的游戏对 AI 的能力要求也不一样,竞技类游戏 AI 项目,体现的是 AI 的博弈能力,即通过所掌握的信息来形成决策,进而战胜对手的智能。简单来看,这种博弈能力又可以分为完美信息博弈和非完美信息博弈。

围棋、象棋等游戏中,参与竞技的双方的每次决策,都可以看到全局的信息,这种情况就是完美信息博弈。AI 可以通过强大的计算力来枚举各种可能性,从而找到致胜策略。而麻将等游戏中,因为无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈。

麻将一共有 136 张牌,每一位玩家只能看到很少的牌,包括自己的 13 张手牌和所有人打出来的牌。牌局开始时,另外三位玩家的手牌以及墙牌都是看不到的,面对如此多的隐藏未知信息,麻将玩家的每一个决策都需要兼顾进攻和防守。

此外,在麻将的对战中,除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠都会改变摸牌的顺序,这一过程也涉及了大量的决策。

ec14e82ffe577d7f4a0da88619ebe060.png

如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息。纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。麻将对战中所包含的隐藏信息要远远大于德州扑克和围棋。

腾讯 AI Lab 在游戏环境中推进决策 AI 的能力,最终是希望AI能从虚拟走向现实,解决真实世界的复杂问题,在现实世界中也充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。

算法创新,拓展决策AI能力边界

过去曾战胜人类的棋牌类 AI,比如围棋和扑克,包含两大核心技术要素——离线训练和在线搜索。离线训练的目的在于得到一个固定的较优的游戏策略(什么状态下做什么动作),在线搜索的目的在于根据当前实际的游戏状态,通过往前搜索很多步的方式来更精确地评价当前游戏状态下各个动作的得失,从而改善离线训练的固定游戏策略。例如,围棋 AI AlphaGo 采用的就是强化学习+蒙特卡洛树搜索;德州扑克 AI 「冷扑大师」 采用的就是遗憾值最小化算法 +安全子博弈搜索(一种针对非完美信息游戏搜索算法)。值得一提的是,由于德州扑克是非完美信息游戏,训练 AlphaGo 采用的算法框架完全不适用,因为蒙特卡洛树搜索要求知道对手的当前状态,而这在扑克里面是不成立的,因为对手的手牌不可见。

麻将是一类更大规模的非完美信息博弈问题。鉴于传统的强化学习针对非完美信息游戏没有收敛到最强策略的理论保证,而有理论保证的遗憾值最小化算法(表格型)计算复杂度太高。腾讯 AI Lab 的研究员提出了一种新型的策略优化算法,该算法具备传统强化学习可扩展性好的优点,又部分继承了遗憾值最小化算法的一些理论性质。相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备),也更鲁棒。结合深度学习,在不使用任何人类数据的情况下,研究人员采用该策略优化算法训练得到了绝艺 LuckyJ 的离线策略。

另一方面,目前的 AI 在围棋和德州扑克上的成功很大程度依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势。但是由于麻将巨大的隐藏信息存在,环境不确定性较大,传统非完美信息搜索算法在麻将面前很难发挥同样的功效。

具体来说,过去一系列非完美信息搜索算法的算法复杂度是隐藏信息数量的平方,这对于德州扑克来说可以承受(因为对手只有 2 张不可见手牌),但是对于有海量隐藏信息的麻将来说太高。

基于以上考虑,研究员引入了一种高效的非完美信息搜索技术。该技术有两大特征,一是对搜索树做了高效的变换和剪枝,避免了 AI 大量的无效搜索,极大提高了搜索效率;另一方面,区别于过去搜索与离线策略的结合方式,腾讯 AI Lab 将搜索返回的结果作为一种「特征」输入到自研的策略神经网络。这种方式的巧妙之处在于,它既能同时在离线训练和在线决策上提供有用的信息,又不会对 AI 的效果上限造成影响。这种搜索方式解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题,使深度强化学习高效结合非完美信息搜索成为可能。

d1872ace5f5cb29bca38711c8af816fa.png

应用展望:解决真实世界问题,走向通用人工智能

腾讯 AI Lab 从 2017 年开始投入游戏 AI 研究,在决策 AI 及生成式 AI 两大方向取得多项领先成果。「绝艺 LuckyJ」 在专业领域获得的成果,体现了腾讯 AI Lab 的深度强化学习智能体通过步步进化,正逐渐向解决更复杂更多样化的问题迁移,每一次进展,都让 AI 朝解决真实世界问题的目标更近一步。

「AI+游戏」是攻克 AI 终极研究难题——通用人工智能(AGI)的关键应用场景。在模拟真实世界的虚拟游戏中,AI 学会快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。由于现实生活中存在大量的隐藏信息和不确定的因素,对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加「智能」的 AI 系统。

附:专家点评

这是麻将 AI 的又一次突破,绝艺 LuckyJ 进一步拓宽了麻将 AI 的能力边界。令人感到兴奋的是,在特上房对战1000局以上的所有玩家中,绝艺 Lucky 的稳定段位排名第一。

—— 角田真吾,C-EGG(天凤平台开发公司)CEO。

「完全没有漏洞」这是绝艺 LuckyJ 给我的第一印象。它有两个划时代的特征:

● 事故率低:人类特别喜欢打掉字牌,而绝艺 LuckyJ 在手气不好时会保留字牌等安全牌,在手气好时会直线做牌。到了中盘,它选择攻击还是防守会逐渐清晰,7 圈以后很少中途放铳,给人的印象是在每张牌上看到「攻击、防守的参数」。

● 即使是复杂的分支也能正确地决断:绝艺 LuckyJ 熟练地运用了会留下各种和牌的可能性并根据实际情况寻找最高牌效的「6 block」打法,并将其做到极致。我认为人类有必要从绝艺 LuckyJ 的打法中学习高水平的分支选择。

将不幸运最小化,用技术取得胜利。今天这个时候,我觉得这样一个实力超群的 AI 命名为「LuckyJ」,也许是对玩家最大限度的谦虚吧。

—— yousei(天凤ID:黒猫@ぺろぺろ☆),日本麻将战术研究家。

「麻将AI?!不就是和普通的单机麻将一样吗,随便菜。」这是我对麻将AI 的第一印象。但是随着大量的对局,AI 的不断更新,从一开始菜 AI,到中间的僵持,最后面对 AI 出现的无力感,不能不感叹 AI 的强大。

在绝艺 LuckyJ 和我们正式的 1800 多局对战中,AI 的胜率达到了 27%。更重要的是,AI 点炮率只有 20%。我的胜率是 27%,跟绝艺  LuckyJ 差不多,但是我的点炮率是 26%,比它足足高了 6 个百分点,完全被 AI 碾压。在数据中可以看出,绝艺 LuckyJ 在攻防两端都表现得都十分出色,充分体现了计算上的优势,让我刮目相看,祝贺腾讯在麻将 AI 上取得的成绩!

—— 成海华,国标麻将职业选手。最好成绩:「雀友杯」2014年世界麻将大师邀请赛冠军。腾讯麻将麻将锦标赛年度总决赛(2018,2019)冠军。

经过数月与绝艺 LuckyJ 的对抗测试,通过分析 AI 对局,AI 无论在进攻还是防守都让我印象深刻。在进攻端,绝艺 LuckyJ 可以呈现出快速成型、保持变化、根据场况做出最佳选择;在防守端,从初期的控制节奏和方向,到后期可以精准调整、果断变张,可谓做到了违害就利、大破大立。我们通常所谓的妙手、灵光一现,甚至基于经验和感觉做出的置之死地而后生的选择,对于 AI 来说可能算是常规操作。

—— 杨磊,国标麻将职业选手,标榜麻将运动协会会长,最好成绩:2007年中国牌王赛牌王,2007年王中王比赛冠军。

在与绝艺 LuckyJ 的上千战当中,我一直惊叹于它强大的牌效和精准的读牌。我们知道围棋和麻将运动的不同点在于对局信息的不确定性。即使是这样AI在国标麻将仍然在攻防两端都做到了极致。同时AI最近在日麻上也达到了天凤十段,不得不让人惊叹:麻将运动似乎也被AI攻克了。 

—— 黄林,国标及日本麻将职业选手。最好成绩:2018 中日麻将对抗赛团队冠军,2017北京麻将联赛冠军,2016世界麻将运动会队式赛亚军。

f12f0e79a6f67d524e5a5bf8931f9bd7.jpeg

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

这篇关于决策AI新突破,腾讯AI Lab「绝艺」LuckyJ登顶国际麻将平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/490225

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影