AlphaGo之父把AI扔进23年的人造社会:智能体3块最硬骨头全在这

23年不重置的活宇宙:EVE Online凭什么被选中

棋局有终局,但EVE Online没有。这款由CCP Games(现名Fenris Creations)运营了23年的太空网游,以其“单一共享宇宙”而闻名——所有玩家在同一个持久世界中进行贸易、结盟、战争,从未重启或删档。在这里,玩家建立了真实的经济体系:ISK货币的波动堪比真实金融市场;政治联盟间的外交、间谍、停火协议跨越数年;一场战役可以持续21小时、消耗约30万美元的真实货币。正是这种由人类玩家自发演化、始终变动、没有捷径的复杂性,让DeepMind CEO、AlphaGo之父Demis Hassabis看中了它。他在公告中直言:“我很高兴能与Fenris Creations合作,在这个由玩家打造、复杂程度无与伦比的宇宙里,安全地探索全新的游戏体验并推进AI研究。”

从《打砖块》到EVE:每一代游戏升级一个研究问题

DeepMind用游戏做AI研究的历史已超十年,每一步都对应着智能体能力的关键缺口:

  • 2013-2015年:Atari(DQN)——规则封闭、关卡明确,考的是反应和价值估计。
  • 2016-2017年:AlphaGo/AlphaZero——围棋规则规整但动作空间巨大,考的是搜索和长链推理。
  • 2019年:AlphaStar(星际争霸2)——首次进入实时、不完美信息、多线博弈,考的是部分可观察下的实时决策。
  • 2025年:SIMA 2——从“执行指令”进化到“理解目标、推理过程、边玩边学”。

AlphaGo之父把AI扔进23年的人造社会:智能体3块最硬骨头全在这

但此前所有环境都相对封闭:Atari是固定规则街机,星际争霸2是一局一局的对战。EVE则完全不同——它是一个开放规则、持续运行23年的“活宇宙”,玩家在这里的决策会影响数月甚至数年的后续局势。Hassabis把下一个研究战场选在EVE,正是要啃下当前AI智能体研究中最难的三块硬骨头。

硬骨头一:长程规划——以月为单位,而非以秒计

EVE联盟战争的标准时间单位是“月”。一场跨星域战争从筹谋到开战,需要造船、运输、外交、潜伏、反间,数百号玩家在没有任务调度的情况下自发协作数月。2014年B-R5RB战役的导火索只是一笔主权账单未自动支付,但此后的舰队战术体系全部围绕这场21小时的大战进行迭代,每月都在复盘修正。这样的环境对AI的挑战是:目标的达成可能跨越上百个时间步,中间充满不确定性和外部干扰。实验室里人工合成的任务很难复刻这种长期耦合的复杂度。

硬骨头二:记忆——玩家好友列表里的“账本”与恩怨

如果你让一位十年EVE老玩家打开好友列表,你会看到几十个分组、上百个名字,备注栏里写着“2018年Delve战役欠的债”“鹅群联盟内部叛徒,别合作”“这哥们儿是间谍,组织里都知道”。这种记忆不是简单的事实存储,而是涉及关系、信用、仇恨和策略的跨年回溯。AI智能体需要具备持续记忆能力,才能在游戏进程中理解谁可信、谁不可信,以及历史事件对当前局势的潜在影响。这是当前单局智能范式(如AlphaGo)完全无法处理的维度。

硬骨头三:持续学习——从失败中迭代,而非从零重启

EVE没有“重玩”或“读档”机制。一次联盟决策失误可能导致几万玩家数月的努力付之一炬。但优秀的玩家和组织会从失败中提取经验:哪次外交破裂、哪次补给线被切断、哪次埋伏露出破绽,都会成为后续行动的修正依据。DeepMind在2025年发布的SIMA 2已经具备“边玩边学”的能力,但EVE提供的环境更加严酷——23年的历史数据、真实的经济波动、玩家驱动的规则演变,迫使AI必须在不断变化的环境中持续更新自己的策略,而不能像在Atari或星际争霸里那样,通过重复海量对局来覆盖旧知识。

不是合成沙盒,而是一个被人类压力测试了23年的人造社会

DeepMind官方声明,初期研究将在离线版本的EVE本地服务器上开展,不连接正式运营服务器。这意味着研究可以安全地测试模型的长程规划与持续学习能力,而不会干扰真实玩家的游戏体验。但圈内普遍认为,这次选择的真正价值在于:与其再造一个合成环境,不如走进一个已经被人类玩家用23年压力测试过的“人造社会”。 EVE中的经济、政治、战争生态全部由真实玩家自发驱动,其复杂性和不可预测性远超出任何实验室的仿真环境。一个能在EVE里持续存在、持续学习、持续规划的AI智能体,离在真实世界中自主运作的智能体,或许只差最后一步。