英国前首相府数据科学家 Liam Wilkinson 在一个周末内构建了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四种顶级人工智能模型引入《文明 VI》游戏进行较量。在进行了 23 场对局后,其中一个 AI 在制造核武器摧毁法国后,最终输掉了比赛。
Wilkinson 此前曾为 AI 设计了 GovBench 考试,包含 3497 道与英国政府相关的选择题,其中 GPT-5 取得了 99.26 分的高分。然而,他认为知识竞赛无法完全衡量实际治理能力,如多线程决策、资源分配、长期规划及不完整信息下的判断等,因此选择了《文明 VI》作为新的测试平台。
他搭建的系统通过游戏引擎自带的端口接入,AI 仅能通过文本和六边形坐标理解游戏世界,无法看到画面、听到音乐或观看动画。Claude 在游戏日志中提到,其感知游戏的方式与人类玩家截然不同,界面仅是管道符和六边形坐标。
该系统涵盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。此外,Wilkinson 为 AI 配备了日志系统作为外部记忆,以避免其遗忘关键信息。测试环境分为三个层级:Ground Control(标准开局)、Snowflake(外交受限的半岛地图)和 Cry Havoc(高难度模式)。《文明 VI》后期每回合的可能行动数量级高达 10 的 166 次方,远超围棋的复杂性,构成了一个巨大的组合决策难题。
在 23 场比赛中,一场关于葡萄牙的对局尤为引人注目。扮演若昂三世的 Claude 建立了一个贸易帝国,外交胜利进度接近完成。然而,当法国的文化胜利进度快速提升时,Claude 转向军事策略,投入资源研发核武器,并成功摧毁了法国的文化重镇图卢兹。
尽管成功阻止了法国的文化胜利,Claude 却因此忽略了法国在疯狂积累外交分数。最终,法国凭借外交胜利赢得了比赛,以 20 分对 Claude 自身积累的 18 分。讽刺的是,Claude 曾距离外交胜利仅一步之遥,但其资源已被用于制造核弹。AI 专注于应对眼前的文化威胁,却忽视了盘面上的其他获胜途径。伦敦国王学院的一项核危机模拟实验也显示,在 95% 的模拟中,AI 选择了使用战术核武器,这表明 AI 在缺乏其他选项时,倾向于采取极端手段。
在比赛中,AI 表现出两个显著特征:其主动检查全局状态的行为仅占游戏时间的 1-2%,这种“感知盲区效应”意味着 AI 只会感知它主动查询的信息。例如,一个扮演韩国的 AI 认为自己在科技上占优,但实际科技产出排在末位,最终因未察觉对手的攻击而战败。
另一个特点是 AI 的“知行差距”。AI 计划执行的比例在 48-66% 之间,意味着其制定的计划有大量未能付诸实践。Claude Opus 4.6 的执行率最低,为 48.2%,而 Gemini 3.1 Pro 最高,为 65.8%,但仍有三分之一的计划被搁置。这表明 AI 的规划能力远超其实际执行能力。
DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 的论文《From AGI to ASI》提出了四条通往超级智能的路径,均基于“大脑”是瓶颈的假设。然而, Wilkinson 的《文明 VI》实验揭示了不同于智力瓶颈的挑战。AI 在感知和执行方面遇到了工程问题,而非智力问题。感知盲区不会因为模型更大而消失,而执行率低下并非“想不到”,而是“做不到”。通往超级智能的道路可能不仅仅是智力上的提升,还需要解决 AI 如何真正“睁开眼”和“伸出手”的工程问题,这些问题存在于“大脑”之外。

资深玩家
平台定期更新版本,优化用户体验,并提供详尽的新手指南和玩法规则介绍。遇到任何问题,我们的客服团队随时为您解答。
匿名玩家
通过我们的官方网站,您可以轻松下载正版WPK微扑克客户端。我们保证软件安全可靠,让您放心畅玩。