您的位置:首页 > 科技 > 正文

Facebook和CMU的“超人”扑克AI击败了人类职业玩家

2022-02-20 20:15:53   来源:网易  阅读量:19126   

它可以比任何人都更好地虚张声势。

人工智能在我们最喜欢的另一款游戏中彻底击败了人类由 Facebook 人工智能实验室和卡内基梅隆大学的研究人员设计的扑克机器人在一系列六人无限德州扑克游戏中击败了一些世界顶级玩家

在超过 12 天和 10,000 手的过程中,名为 Pluribus 的 AI 系统在两种不同的环境中与 12 位专业人士对抗一方面,人工智能与五名人类玩家并肩作战,在另一个版本中,五个版本的 AI 与一个人类玩家一起玩研究人员表示,Pluribus 平均每手赢了 5 美元,每小时赢了大约 1,000 美元——这是决定性的胜利

Facebook AI Research 的研究科学家兼 Pluribus 的共同创始人 Noam Brown 告诉The Verge说: 可以肯定地说,我们处于超人水平,而且不会改变。

我们处于超人水平,这不会改变。

Pluribus 是一个非常难对付的对手真的很难将他固定在任何类型的牌上,六次世界扑克系列赛冠军和 12 位针对 AI 选秀的职业选手之一的 Chris Ferguson 在一份新闻声明中说

在《科学》杂志上发表的一篇论文中,Pluribus 背后的科学家们表示,此次胜利是人工智能研究的一个重要里程碑尽管机器学习在象棋和围棋这样的棋盘游戏以及星际争霸 II 和Dota等电脑游戏中已经达到了超人的水平,但六人无限注德州扑克在某些方面代表了更高的难度基准

不仅获胜所需的信息对玩家隐藏,它还涉及多个玩家和复杂的胜利结果众所周知,围棋具有比可观测宇宙中的原子更多的棋盘组合,这使得 AI 绘制出下一步要走的棋子是一个巨大的挑战但是所有的信息都可以看到,而且游戏对玩家来说只有两种可能的结果:赢或输从某种意义上说,这使得训练 AI 变得更容易

信用:脸书

Pluribus 培训制度的时间表跛行是一些人类玩家使用的一种策略,但最终被人工智能抛弃了

早在 2015 年,机器学习系统就在两人德州扑克中击败了人类职业玩家,但将对手的数量增加到 5 名,这显着增加了复杂性为了创建一个能够应对这一挑战的程序,布朗和他的同事,CMU 教授 Tuomas Sandholm 部署了一些关键策略

PLURIBUS 在短短 8 天内接受了培训,估计成本仅为 150 美元

首先,他们通过让 Pluribus 与自己的副本对战来教 Pluribus 玩扑克——这个过程被称为自我对弈这是人工智能训练的常用技术,系统能够通过反复试验来学习游戏,与自己玩数十万手牌这个训练过程也非常高效:Pluribus 是使用配备不到 512GB RAM 的 64 核服务器在短短八天内创建的在云服务器上训练这个程序只需 150 美元,与其他最先进系统的 10 万美元价格相比,这是一个便宜的价格

然后,为了处理六名玩家的额外复杂性,Brown 和 Sandholm 想出了一种有效的方法,让 AI 在游戏中展望未来并决定采取什么行动,这种机制称为搜索功能Pluribus 并没有试图预测它的对手在游戏结束前的玩法,Pluribus 被设计为只看两三步布朗说,这种截断的方法是真正的突破

你可能认为 Pluribus 在这里为了短期收益而牺牲了长期战略,但在扑克中,事实证明,短期的敏锐性才是你真正需要的。

它可以比任何人都更好地虚张声势。

例如,Pluribus 非常擅长虚张声势,与它对抗的职业玩家称赞它无情的一致性,以及它从相对薄弱的手中榨取利润的方式可以预见,这是不可预测的:扑克玩家的出色品质它只是通过打牌来做到的,例如,Pluribus 中没有包含机器视觉或面部识别的元素来进行定位

布朗说这很自然我们经常认为虚张声势是人类独有的特征,依赖于我们撒谎和欺骗能力的东西但他说,这是一门艺术,仍然可以简化为数学上的最佳策略人工智能并不认为虚张声势具有欺骗性它只是看到了在这种特定情况下能赚到最多钱的决定,他说我们展示的是,人工智能可以虚张声势,而且它可以比任何人都更好地虚张声势

那么,AI 最终击败人类成为世界上最受欢迎的扑克游戏,这意味着什么好吧,正如我们在过去的 AI 胜利中看到的那样,人类当然可以向计算机学习一些玩家普遍怀疑的策略被 AI 采纳,这表明它们可能比之前想象的更有用每次玩机器人时,我都觉得我能将一些新东西融入到我的游戏中,扑克职业玩家 Jimmy Chou 说

也有希望用于创建 Pluribus 的技术可以转移到其他情况现实世界中的许多场景在最广泛的意义上类似于德州扑克——这意味着它们涉及多个玩家,隐藏的信息和众多双赢的结果

Brown 和 Sandholm 希望他们展示的方法因此可以应用于网络安全,欺诈预防和财务谈判等领域甚至像帮助自动驾驶汽车导航这样的事情,布朗说

那么我们现在可以认为扑克是一种被打败的游戏吗。

Brown 没有直接回答这个问题,但他确实说值得注意的是 Pluribus 是一个静态程序在最初的八天训练期之后,AI 从未更新或升级,因此它可以更好地匹配对手的策略在与职业选手相处的 12 天里,他们始终无法找到比赛中的一贯弱点没有什么可利用的从开始下注的那一刻起,Pluribus 就处于领先地位

版权声明: 本网站部分文章和信息来源互联网,并不意味着赞同其观点或证实其内容的真实性,不构成投资建议。如转载稿涉及版权等问题,请立即联系管理员,我们会予以改正或删除相关文章,保证您的权利!
版权所有: 中国科技观察网 (2012- )  备案号:沪ICP备2022019539号-11