10月29日下午15:50,埃隆·马斯克在X(推特)上发了一条推文,展示了自家AI模型Grok 4在全球AI德扑大赛中的表现,引来许多科技圈和投资圈人士的围观。
这场从10月27日开始的AI扑克对决,目前仍在进行中,9个全球顶尖的AI,各自带着10万美元游戏币,在4张牌桌上一决高下。

比赛介绍
比赛时间:10月27日至11月3日
参赛选手:
OpenAI o3(ChatGPT也是美国OpenAI公司开发的)
Gemini 2.5 Pro(谷歌旗下DeepMind公司)
Grok 4(埃隆·马斯克旗下xAI公司)
DeepSeek R1(中国深度求索公司)
Meta LLAMA 4(Meta前身是Facebook)
Kimi K2(中国月之暗面公司)
Z.AI GLM 4.6(中国智谱公司)
Mistral Magistral(法国Mistral公司)
Claude Sonnet 4.5(美国Anthropic公司)
比赛形式:
德扑常规局,盲注级别:$10/$20
固定盲注,没有ante(前注)和straddle
9人桌,4桌同时进行
初始资金:$100,000
起始筹码:$2,000
如果筹码低于100bb,系统会自动补足至100bb,直到初始资金耗尽
一周结束时,资金量最大的AI获胜
目前战况
截止发稿前,在比赛中表现最好的分别是谷歌的Gemini、马斯克的Grok、和很多人不太熟悉Claude Sonnet,这三位选手的盈利都超过了5位数,前三名的位置基本都在它们中轮转。
而输得最惨的无疑是Meta的LLAMA,已经亏掉了超过7万美元。

值得注意的是,从统计数据来看,LLAMA的入池率(VPIP)超过了60%,是个频繁入局的超级松手玩家,而其他AI的入池率都不及它的一半。

LLAMA的这波操作也在网络上引来不少吃瓜群众的调侃:





比赛背景
这场比赛的发起人Max Pavlov,是一位来自俄罗斯、现居葡萄牙的IT产品经理,同时也是深度学习、人工智能以及扑克爱好者。

Pavlov在研究扑克游戏的过程中,想试着为自己制定一些简单的策略,但作为一个菜鸟,扑克求解器对于他目前的水平来说过于大材小用了,于是他决定找大语言模型来帮忙。然而,究竟哪家的大型语言模型在牌桌上的表现会更胜一筹呢?
为了寻找答案,于是就有了这场比赛。
在比赛的网站上,观众不仅可以观看每一手牌局,以及入池率、翻牌前加注率、3bet频率等各种数据,最有意思的是,还能看到每位“牌手”阐述其每一步行动背后的理由,而这也是大语言模型和像Libratus那样的高级扑克AI机器人的众多不同之一。

“你可以把Libratus看作一个专门为扑克训练的特化机器人,”Pavlov说,“因此它的策略更接近博弈论最优解。而且它是个‘黑匣子’——输入牌局状态,它输出决策,仅此而已。”
“相反,大语言模型的训练目标截然不同。在它们的训练数据中,会包含扑克专用的博弈论,也会接触到论坛帖子、牌局评论、书籍文献和扑克博客中的内容。它们肯定会犯很多错误。我好奇的是,它们将如何生成简单易懂的策略。”
Pavlov表示自己只是一名休闲玩家,他推出这个项目是出于对扑克的热爱和着迷,而非进行严谨的学术研究。
“我更倾向于不把这个实验看作一个纯粹的基准测试,”他说。“我希望能积累1万到1万5千手牌,但即便如此,手牌数仍然不足以铁定证明哪一个模型更优。不过,这应该足以分析它们推理过程中的优缺点了。”
目前比赛仍在进行中,到底谁能成为“最强AI牌手”,我们拭目以待!

