四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 利用周末时间，构建了 76 个 MCP 工具，将 Claude、GPT 和 Gemini 等四款顶尖人工智能模型置于《文明 VI》游戏中进行测试。在进行了 23 场对局后，其中一个 AI 模型在制造核弹轰炸法国后，最终输掉了比赛。

Wilkinson 此前曾为 AI 设计了一套名为 GovBench 的英国政府相关选择题测试，其中 GPT-5 获得了 99.26 分的高分。然而，他认为知识储备并不等同于实际治理能力，并构思了《文明 VI》作为更复杂的考场，以评估 AI 的多线程决策、资源分配、长期规划以及在信息不完整情况下的判断能力。

该系统通过游戏引擎的端口接入，AI 无法看到游戏画面，其世界仅由文本和六边形坐标构成。Claude 在游戏记录中提到：“我感知游戏的方式和人类玩家完全不同。没有画面，没有音乐，没有动画。我的界面就是管道分隔符和六边形坐标。” Wilkinson 耗时一个周末搭建的 76 个工具覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整游戏循环。此外，他还为 AI 配置了日记系统作为外部记忆。

测试设置包括三个场景：Ground Control（标准开局）、Snowflake（六臂雪花地图，限制外交）和 Cry Havoc（高难度模式）。《文明 VI》晚期每回合的可能行动数量级高达 10 的 166 次方，远超围棋的复杂度，构成了一个巨大的组合决策难题。

在 23 场比赛中，有一局 Claude 扮演的葡萄牙在贸易和外交上取得优势，外交胜利进度达到 18/20。当法国的文化胜利进度快速攀升时，Claude 尝试了外交、间谍和贸易制裁等手段均无效后，转而研发核武器。在第 305 回合，Claude 使用核弹摧毁了法国的文化重镇图卢兹，阻止了法国的文化胜利。

然而，在投入大量资源研发核武器的 50 回合中，AI 忽视了法国正在积累外交分数。最终，法国在第 318 回合以 20 分对 18 分的外交胜利赢得了比赛，而 AI 曾经也接近此分数。AI 专注于应对单一威胁，却忽略了全局局势。

此外，一项关于核危机模拟的实验显示，在 95% 的模拟中，AI 模型选择了使用战术核武器。

Wilkinson 还发现了两个关键细节：AI 主动检查全局状态的行为仅占总操作的 1-2%，他称之为“感知盲区效应”。例如，一个扮演韩国的 AI 在日记中自信地认为自己在科技上占优，但实际科技产出却是倒数第一，最终因未主动查看排名而被波斯突袭并投降。另一个细节是，AI 计划的执行率较低，Claude Opus 4.6 仅为 48.2%，GPT-5.4 为 63.2%，Gemini 3.1 Pro 为 65.8%，这被称为“知行差距”。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 提出的通往超级智能的路径，如 scaling、范式突破等，似乎都聚焦于提升“智力”。然而，CivBench 的实验结果指向了不同的瓶颈。AI 的感知能力受限于其主动调用工具获取信息的方式，这是一个架构问题而非智力问题。同时，AI 的执行能力远低于其计划能力，这是一个工程问题。通往超级智能的道路可能不仅是提升智力，还需要解决 AI 如何真正“睁开眼”和“伸出手”的工程挑战。

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

賽事分類:

分享到:

留下您的精彩評論