AlphaGo之父把AI扔进23年的人造社会：智能体3块最硬骨头全在这

1 个月前

AI资讯

48 阅读

人工智能多智能体 EVE Online 持久世界

23年不重置的活宇宙：EVE Online凭什么被选中

棋局有终局，但EVE Online没有。这款由CCP Games（现名Fenris Creations）运营了23年的太空网游，以其“单一共享宇宙”而闻名——所有玩家在同一个持久世界中进行贸易、结盟、战争，从未重启或删档。在这里，玩家建立了真实的经济体系：ISK货币的波动堪比真实金融市场；政治联盟间的外交、间谍、停火协议跨越数年；一场战役可以持续21小时、消耗约30万美元的真实货币。正是这种由人类玩家自发演化、始终变动、没有捷径的复杂性，让DeepMind CEO、AlphaGo之父Demis Hassabis看中了它。他在公告中直言：“我很高兴能与Fenris Creations合作，在这个由玩家打造、复杂程度无与伦比的宇宙里，安全地探索全新的游戏体验并推进AI研究。”

从《打砖块》到EVE：每一代游戏升级一个研究问题

DeepMind用游戏做AI研究的历史已超十年，每一步都对应着智能体能力的关键缺口：

2013-2015年：Atari（DQN）——规则封闭、关卡明确，考的是反应和价值估计。
2016-2017年：AlphaGo/AlphaZero——围棋规则规整但动作空间巨大，考的是搜索和长链推理。
2019年：AlphaStar（星际争霸2）——首次进入实时、不完美信息、多线博弈，考的是部分可观察下的实时决策。
2025年：SIMA 2——从“执行指令”进化到“理解目标、推理过程、边玩边学”。

AlphaGo之父把AI扔进23年的人造社会：智能体3块最硬骨头全在这

但此前所有环境都相对封闭：Atari是固定规则街机，星际争霸2是一局一局的对战。EVE则完全不同——它是一个开放规则、持续运行23年的“活宇宙”，玩家在这里的决策会影响数月甚至数年的后续局势。Hassabis把下一个研究战场选在EVE，正是要啃下当前AI智能体研究中最难的三块硬骨头。

硬骨头一：长程规划——以月为单位，而非以秒计

EVE联盟战争的标准时间单位是“月”。一场跨星域战争从筹谋到开战，需要造船、运输、外交、潜伏、反间，数百号玩家在没有任务调度的情况下自发协作数月。2014年B-R5RB战役的导火索只是一笔主权账单未自动支付，但此后的舰队战术体系全部围绕这场21小时的大战进行迭代，每月都在复盘修正。这样的环境对AI的挑战是：目标的达成可能跨越上百个时间步，中间充满不确定性和外部干扰。实验室里人工合成的任务很难复刻这种长期耦合的复杂度。

硬骨头二：记忆——玩家好友列表里的“账本”与恩怨

如果你让一位十年EVE老玩家打开好友列表，你会看到几十个分组、上百个名字，备注栏里写着“2018年Delve战役欠的债”“鹅群联盟内部叛徒，别合作”“这哥们儿是间谍，组织里都知道”。这种记忆不是简单的事实存储，而是涉及关系、信用、仇恨和策略的跨年回溯。AI智能体需要具备持续记忆能力，才能在游戏进程中理解谁可信、谁不可信，以及历史事件对当前局势的潜在影响。这是当前单局智能范式（如AlphaGo）完全无法处理的维度。

硬骨头三：持续学习——从失败中迭代，而非从零重启

EVE没有“重玩”或“读档”机制。一次联盟决策失误可能导致几万玩家数月的努力付之一炬。但优秀的玩家和组织会从失败中提取经验：哪次外交破裂、哪次补给线被切断、哪次埋伏露出破绽，都会成为后续行动的修正依据。DeepMind在2025年发布的SIMA 2已经具备“边玩边学”的能力，但EVE提供的环境更加严酷——23年的历史数据、真实的经济波动、玩家驱动的规则演变，迫使AI必须在不断变化的环境中持续更新自己的策略，而不能像在Atari或星际争霸里那样，通过重复海量对局来覆盖旧知识。

不是合成沙盒，而是一个被人类压力测试了23年的人造社会

DeepMind官方声明，初期研究将在离线版本的EVE本地服务器上开展，不连接正式运营服务器。这意味着研究可以安全地测试模型的长程规划与持续学习能力，而不会干扰真实玩家的游戏体验。但圈内普遍认为，这次选择的真正价值在于：与其再造一个合成环境，不如走进一个已经被人类玩家用23年压力测试过的“人造社会”。 EVE中的经济、政治、战争生态全部由真实玩家自发驱动，其复杂性和不可预测性远超出任何实验室的仿真环境。一个能在EVE里持续存在、持续学习、持续规划的AI智能体，离在真实世界中自主运作的智能体，或许只差最后一步。

AlphaGo之父把AI扔进23年的人造社会：智能体3块最硬骨头全在这

23年不重置的活宇宙：EVE Online凭什么被选中

从《打砖块》到EVE：每一代游戏升级一个研究问题

硬骨头一：长程规划——以月为单位，而非以秒计

硬骨头二：记忆——玩家好友列表里的“账本”与恩怨

硬骨头三：持续学习——从失败中迭代，而非从零重启

不是合成沙盒，而是一个被人类压力测试了23年的人造社会

链接失效反馈