@ 2024.07.21 , 07:05

扑克玩家可利用AI找到最优策略,但一般不用

“全押。”你的对手将一叠筹码推过高风险的扑克桌。你回头看看你的牌,一对六。游戏是德州扑克,只剩下你们两人,尚未发公共牌。扑克中,事情很少比这更简单,你面临一个二元决策:跟注(匹配对手的赌注)或弃牌(放弃)。但对于职业玩家来说,每个细节都需要考虑。全押之前的下注模式是什么?谁先行动?每个玩家有多少筹码,底池有多少筹码?盲注何时增加?当然,六对的赢牌概率有多大?你研究过扑克策略,记住了概率表,并在脑海中计算了一切。所有迹象都表明弃牌是客观上最好的决定。但在长期比赛中,你注意到你的对手往往会用中等牌力过度下注。你是坚持训练弃牌,还是即时调整策略,利用你观察到的弱点?

是否使用所谓的“博弈论最优对抗策略”是高级扑克中的一个核心讨论。这种数学基础可以追溯到80年前,但AI的快速进步将20世纪中叶的数学推到了现代游戏的前沿。新工具教扑克玩家游戏的最优策略,那为什么他们不总是使用呢?

最优玩法?

在一个基于随机发牌和复杂人类心理的游戏中,客观上的最优玩法可能显得反直觉。比如,诈唬——玩家假装自己有一手无敌的牌来吓唬对手弃牌。这种对牌的谎言本质上是心理性的,很难纳入严格的客观模型。但我们永远不应该低估数学家将人类行为转化为整洁方程的能力。

事实上,数学家John von Neumann和经济学家Oskar Morgenstern在1944年关于数学博弈论的基础书籍《博弈论与经济行为》中,将扑克作为一个核心例子。作者分析了一种简化的变体,将游戏简化为其最基本的动态:两名玩家各收到一个介于0到1之间的数字,较高的数字代表更强的牌,然后进行一轮下注。Von Neumann和Morgenstern证明,不仅存在一种最优策略,而且诈唬是这种策略的一个重要部分。

当然,德州扑克比这个玩具例子复杂得多。谁能说在完整的多人扑克中甚至存在最优策略?已故数学家John Nash能。在20世纪50年代,Nash推动了当时新兴的博弈论领域,并在1994年获得诺贝尔经济学奖,后来在2001年的传记电影《美丽心灵》中被描绘。他最著名的发现现在被称为Nash均衡,当游戏的每个玩家都无法通过偏离其选择的策略(假设其他人不偏离他们的策略)而获益时,就会出现这种情况。

博弈论家认为这种情况是最优的,因为如果你和我玩一个游戏,我们各自从任何旧策略开始,然后我调整我的策略以利用我看到你在做什么,然后你反过来调整以应对我的改变,依此类推,我们最终会达到一种稳定状态,在这种状态下我们都无法继续改进。在Nash均衡中,玩家甚至可以提前宣布他们的策略,仍然每个人最好的做法是坚持均衡。在1950年的一篇一页论文中,John Nash证明每个有限的竞争游戏——从麻将到《万智牌》——至少有一个Nash均衡。

尽管其名称,博弈论适用于传统游戏以外的广泛话题,包括经济系统、核威慑和进化生物学。对这一领域的研究人员来说,游戏指的是任何理性决策者之间的互动,其行动和收益可以被严格定义和分析。因此,Nash定理具有广泛的影响。在扑克中,它证明了在一个曾被认为依赖直觉和读牌的游戏中寻找最优策略的合理性。

AI扑克革命

仅仅因为我们知道德州扑克有一个Nash均衡,并不意味着我们知道它是什么样子。随着游戏复杂性的增加,它们的最优策略往往变得难以搞清楚。任何人都可以通过记住几个移动序列在一次坐下期间学会完美的井字棋。而对于更复杂的游戏如跳棋,在完美玩法下总是平局,人类无法记住足够多的变体来实现最优策略。然而,科学家已经创建了无敌的算法来完美地玩游戏,因为计算机可以存储大量的位置数据库,并以人类无法做到的方式广泛搜索游戏树。同时,象棋计算机自1997年左右以来一直主导着最优秀的人类玩家(当时世界冠军Garry Kasparov输给了IBM的Deep Blue),但象棋计算机仍然没有表现出最优玩法——下一代象棋引擎将会打败今天的象棋引擎。

与象棋不同,扑克涉及不完美的信息。玩家知道自己的牌但不知道对手的牌,这使得游戏更难以计算模型。这解释了为什么扑克的算法革命直到最近的AI繁荣才出现。在2015年,计算机科学家宣布了一种算法,它展示了对于一种只有两名玩家和有限下注规模的受限版本的游戏的基本完美玩法。仅仅四年后,我们得到了第一个超人AI用于多人德州扑克。随之而来的是一系列商业化的软件工具,称为“求解器”,在短短几年内,每个有几百美元的职业扑克玩家都有一个可以告诉他们在几乎每种情况下如何玩的扑克高手。

“游戏从一种模糊的艺术变成了硬科学,”前职业扑克玩家Liv Boeree说。要在当今的环境中保持领先地位,先进的玩家通过使用如PioSOLVER等计算机程序来研究游戏,这些程序可以近似最优策略。对于简单和常见的情况,职业玩家会记住机器的建议,而对于罕见和更复杂的情况,他们则从其行为中获取更多高层次的教训。对于任何顶级扑克玩家来说,使用这些求解器学习是必不可少的。“如果你想在高风险中与最优秀的玩家竞争,绝对……如果你不使用求解器,你会被吃掉,”Boeree,这位世界扑克系列赛冠军说。“有些玩家完全拒绝了这一概念,他们没有与求解器合作……大多数情况下,他们被淘汰了。”

AI既证实了一些关于德州扑克策略的常识,也推翻了一些玩家错误的信条。例如,计算机在“驴下注”中取得了成功——在前一轮仅仅跟注另一个玩家的下注后,下一轮主动下注——尽管民间认为驴下注是业余行为。AI还在专家人类倾向于弃牌的情况下打出更广泛的手牌。像象棋引擎一样,多人扑克求解器并没有字面上最优地玩游戏,但它们彻底压制了人类,我们可以从中学到很多。

如何获胜

在定义Nash均衡时,我隐含了一个关键细节:当其他玩家没有偏离他们的策略时,均衡发生在没有玩家会通过偏离他们选择的策略而受益的情况。然而,当其他玩家尽管如此偏离时,通常明智的是做出响应的偏离。

以石头-剪刀-布为例。它的Nash均衡是什么?想一想:什么策略会让双方没有偏离的动力?答案是:玩家应该完美地随机出石头、剪刀和布;每种手势出现的概率都是三分之一,无论之前的轮次如何。你可以提前向对手宣布这个策略,他们将无力利用你的坦率。

如果你和你的对手都执行这个均衡策略,你可以期待赢得一半的决定性轮次(忽略平局)。现在假设你的对手偏离了。在极端情况下,假设他们总是出布。如果你坚持均衡策略,你仍然会赢得一半的决定性轮次,因为你出赢的剪刀和输的石头的频率相等。但你可以通过总是出剪刀来利用对手的偏离,每轮都剪他们的布。较不显著的偏离仍然给你提供了利用的机会。例如,对石头-剪刀-布的实证研究表明,当人们赢得一轮时,他们稍微更有可能重复他们刚刚赢得的手势。知道这一点可以给你一个优势。如果你刚刚输给了石头,那么下一轮出布,因为你的对手可能会再次出石头。Nash均衡是唯一不会被利用的策略。

同样的动态在更复杂的扑克中上演。随着玩家从他们的AI合作者

那里学到更多的最优技巧,他们也学会了如何嗅出对手何时没有达到最优玩法,以及如何最好地惩罚他们。

你可能认为这里有个陷阱。如果你的对手偏离了,最优决定难道不是无情地利用他们,而不是盲目地坚持Nash均衡并让潜在的钱留在桌上吗?如果你发现对手以可预测的方式偏离了Nash均衡,那么偏离自己以利用他们的弱点可能会净赚更多钱。然而,一旦你利用了他们,你现在也偏离了均衡,自己也会受到利用。如果你的对手总是出布,而你开始只出剪刀,他们最终会意识到并用石头打败你的剪刀。

前扑克职业选手Igor Kurganov说:“每当你发现对手的一个错误,你就改进你对他们如何思考游戏的模型,调整你对他们的打法,以考虑到这个错误,从而使自己变得可被利用。”

大多数玩家都同意,要在扑克的顶级水平上竞争,他们必须使用博弈论的最优和剥削性玩法的混合。最优更具防御性,而剥削性更具进攻性。一些老师建议你应该通过模仿最优玩法开始比赛——只有在你有时间观察对手的弱点后,才应该加入你的剥削性玩法。在策略之间的灵活切换将鱼和鲨鱼区分开来。Kurganov说:“这个过程在你越确定自己比对手更了解游戏时效果越好。”他补充道,“当你觉得他们和你一样好或更好时,你就会减少剥削性的调整。”

对于一些人来说,超人扑克引擎的出现让游戏失去了吸引力,而另一些人则认为计算机为游戏增加了新的层次。Boeree在2019年从职业扑克退役,现在是一名科学传播者、慈善家和播客主持人,她更倾向于前者。她说:“感觉游戏的魔力少了一些,好像‘哦,好吧,谜底已经揭开了’。”但Boeree承认,新扑克时代并不缺乏爱好者。她补充道:“自COVID以来,扑克热潮持续上升。去年世界扑克系列赛的玩家数量创下新高。记录不断被打破。所以显然它没有摧毁这个游戏。”相反,我们可以说扑克不断变化的格局仍在找到它的均衡点。

本文译自 Scientific American,由 BALI 编辑发布。

赞一个 (5)