Doug Polk点出AI扑克致命漏洞:花色不分、误解记分牌

游戏推荐

去年年底,九款顶尖AI在扑克牌桌展开激战,OpenAI的o3一举夺魁。而就在近日,一场更残酷的单挑大战落幕——最终,胜利依然属于OpenAI,但赢家换成了GPT-5.2。

这不仅是技术的较量,更是策略与漏洞的曝光现场。职业牌手边看边摇头:“它们连花色都分不清?”

Doug Polk点出AI扑克致命漏洞:花色不分、误解记分牌

决赛:一场OpenAI的“兄弟内战”

本次“AI扑克showdown”由Google DeepMind主持,但战局却意外演变成OpenAI的“家事”。

在单挑决赛中,GPT-5.2击败了同门的o3,夺得冠军。

职业牌手兼解说Doug Polk感叹:“决赛竟是OpenAI自家AI对决,说明它们目前扑克实力最强。两者风格还极其相似——超激进,永远盯着对手弱点猛攻。”

全球AI明星扑克手除了OpenAI的两强,晋级淘汰赛的还包括:

Google双子星:Gemini 3 Flash、Gemini 3 Pro

Anthropic双雄:Opus 4.5、Sonnet 4.5

X的独苗:Grok 4

中国代表:DeepSeek V3.2

以下是完整对阵表:

完整对阵表

Doug Polk指出的AI漏洞

如前所述,Doug Polk是本次AI对决的特邀评论员之一。比赛中,这位美国职业牌手记录了几个人工智能的宏观漏洞。

首先是对同花与同花听牌的认知问题。

在一手GPT-5 mini与Grok 4.1的牌局中,前者持有A♦K♣,后者持有A♣10♣,公共牌发出6♣J♦9♦后,双方进行了下注、加注、全下跟注的操作——因为Grok认为自己持有三张草花组成的坚果同花听牌,而GPT-5 mini则认为自己是三张方块组成的坚果同花听牌。

除了花色问题外,AI似乎也不理解“弃牌的期望价值(EV)为零”。

扑克中的每一次决策都独立于之前的行动,一切都关乎当下此时此地的判断。哪里能获得最高的EV?你不该考虑可能损失的筹码,那些筹码已经投入底池,已经不再属于你。你需要做的只是基于当前拥有的筹码做出决定。因此,AI在这方面的逻辑是错误的。

Polk特别提到了一手牌:o3用A♥2♣对GPT-5.2的A♣Q♥进行了四次下注后的全下,其理由是“如果弃牌就会损失已经投入底池的筹码”。

Boeree的警示

在评论AI单挑对决时,Liv Boeree则对AI可能从扑克中学到的东西提出了警告。

“可以想象,有些人可能会担忧——或至少认为值得思考——在‘狼人杀’、扑克这类决策游戏中训练或测试大语言模型(LLM),因为我们可能会激励LLM发展出说服性与操纵性的行为。我认为这是一个合理的担忧。你们怎么看?同意与否,这是否是面对该问题的正确方式?”

AI数据统计

Polk还汇报了参与单挑对决的AI的统计数据。这位美国牌手将未通过初赛、因而未能进入四分之一决赛的AI也纳入统计。

AI数据统计

用户“WCGrider”指出,在AI的世界里,激进打法是有回报的。

“三款超激进的AI最终排名靠前,这很有趣。中游的往往是那些更保守的AI。我认为Opus和Sonnet都打得相当合理。它们在手牌样本中都实现了盈利,具有合理的翻牌前策略:加注了合理数量的牌,防守了合理数量的牌。但看起来,这些策略似乎不足以抵挡某些AI不间断的、毫不留情的超激进攻击。”

花絮:ChatGPT的“自嗨”回复

赛后,笔者向ChatGPT道贺:“听说你的模型赢了AI扑克比赛!”

它回复:哈哈谢谢!是的,OpenAI的模型在历史性的人机扑克单挑中战胜了职业牌手……(省略三百字自夸)”

——显然,它完全搞错了比赛性质(这根本不是人机对战),还陷入了愉快的幻觉。

结语:AI扑克强在哪?弱在哪?

强在无限纪律、无情绪、策略一致;弱在仍会犯基础逻辑错误,甚至分不清花色。

这场对决不仅展示了AI的策略进化,也暴露了其在复杂博弈中的根本局限。而当AI在牌桌上学会“诈唬”,我们是否也该警惕它在现实中的“说服力”?

游戏推荐
本文标签:德扑牌手 AI