四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了
英国前首相府数据科学家 Liam Wilkinson 利用周末时间,构建了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四款顶尖人工智能模型置于《文明 VI》游戏中进行测试。在进行了 23 场对局后,其中一个 AI 模型在制造核弹轰炸法国后,最终输掉了比赛。
Wilkinson 此前曾为 AI 设计了一套名为 GovBench 的英国政府相关选择题测试,其中 GPT-5 获得了 99.26 分的高分。然而,他认为知识储备并不等同于实际治理能力,并构思了《文明 VI》作为更复杂的考场,以评估 AI 的多线程决策、资源分配、长期规划以及在信息不完整情况下的判断能力。
该系统通过游戏引擎的端口接入,AI 无法看到游戏画面,其世界仅由文本和六边形坐标构成。Claude 在游戏记录中提到:“我感知游戏的方式和人类玩家完全不同。没有画面,没有音乐,没有动画。我的界面就是管道分隔符和六边形坐标。” Wilkinson 耗时一个周末搭建的 76 个工具覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整游戏循环。此外,他还为 AI 配置了日记系统作为外部记忆。
测试设置包括三个场景:Ground Control(标准开局)、Snowflake(六臂雪花地图,限制外交)和 Cry Havoc(高难度模式)。《文明 VI》晚期每回合的可能行动数量级高达 10 的 166 次方,远超围棋的复杂度,构成了一个巨大的组合决策难题。
在 23 场比赛中,有一局 Claude 扮演的葡萄牙在贸易和外交上取得优势,外交胜利进度达到 18/20。当法国的文化胜利进度快速攀升时,Claude 尝试了外交、间谍和贸易制裁等手段均无效后,转而研发核武器。在第 305 回合,Claude 使用核弹摧毁了法国的文化重镇图卢兹,阻止了法国的文化胜利。
然而,在投入大量资源研发核武器的 50 回合中,AI 忽视了法国正在积累外交分数。最终,法国在第 318 回合以 20 分对 18 分的外交胜利赢得了比赛,而 AI 曾经也接近此分数。AI 专注于应对单一威胁,却忽略了全局局势。
此外,一项关于核危机模拟的实验显示,在 95% 的模拟中,AI 模型选择了使用战术核武器。
Wilkinson 还发现了两个关键细节:AI 主动检查全局状态的行为仅占总操作的 1-2%,他称之为“感知盲区效应”。例如,一个扮演韩国的 AI 在日记中自信地认为自己在科技上占优,但实际科技产出却是倒数第一,最终因未主动查看排名而被波斯突袭并投降。另一个细节是,AI 计划的执行率较低,Claude Opus 4.6 仅为 48.2%,GPT-5.4 为 63.2%,Gemini 3.1 Pro 为 65.8%,这被称为“知行差距”。
DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 提出的通往超级智能的路径,如 scaling、范式突破等,似乎都聚焦于提升“智力”。然而,CivBench 的实验结果指向了不同的瓶颈。AI 的感知能力受限于其主动调用工具获取信息的方式,这是一个架构问题而非智力问题。同时,AI 的执行能力远低于其计划能力,这是一个工程问题。通往超级智能的道路可能不仅是提升智力,还需要解决 AI 如何真正“睁开眼”和“伸出手”的工程挑战。
留下您的精彩評論