强化学习之父Sutton联手毁灭战士之父Carmack：让机器人进入真实世界打游戏

2 天前

AI资讯

13 阅读

AGI 机器人强化学习毁灭战士

卡马克与萨顿的意外联盟：从毁灭战士到强化学习的碰撞

被誉为“毁灭战士之父”的传奇程序员John Carmack，与被称为“强化学习之父”的Richard Sutton，这对看似分属游戏和AI两个完全不同领域的巨头，竟在一个共同的愿景下走到了一起——All in AGI（通用人工智能）。对于外界来说，能与Sutton共事本身就是一份“意料之外的惊喜”，而Carmack对此直言不讳。他相信，人工智能不应只是成千上万行代码构成的固定程序，而应是一种能自我学习、持续成长的智能体，能够从单一领域的运算转向理解、学习并解决世界上最大的计算机科学问题。Sutton的强化学习框架，恰好为这一愿景提供了最底层的引擎。

2030年目标：让跳舞人形机器人成为AGI的试金石

Carmack在合作中提出了一个极具争议的路线图：2030年向公众展示通用人工智能的目标是可行的。为了让这一目标落地，他给出了一个颇具现实感的检验方法——让跳舞人形机器人拿取真实世界中的游戏手柄，然后真正地在屏幕上打游戏。对于那些认为完全具身的AGI即将实现的人来说，这无疑是一剂清醒剂。这一设想打破了传统AI只在虚拟环境中训练和模拟的局限，将“具身认知”推向了极致：AI必须在物理世界中操控物体、理解视觉反馈、规划动作序列，甚至可能还要应对手柄电量不足或按键卡住等意外情况。

从游戏引擎到世界模型：AI不再是单一任务的奴隶

Carmack长期以来对人类在游戏工业中的低效编程感到不满，他坚信一个真正的AGI应该能像人类一样，无需专门的游戏AI脚本，就能通过观察和互动掌握游戏规则。而Sutton的强化学习方法（如通过奖励函数让AI自主探索）正好为此提供了理论支撑。他们的合作并非简单的“游戏+AI”，而是试图构建一个“世界模型”——让AI先在一个数字世界中学会因果关系，再将这种学习能力迁移到现实。这标志着AI从“单一领域专用”向“跨领域通用”的转变，其野心远超当年《毁灭战士》的多边形渲染技术。

德州科技狂人的终极赌注：以自我学习破解计算科学的天花板

作为北德州的科技天才，Carmack将这次合作视为他人生中最大的一次“技术豪赌”。与以往任何游戏或VR项目不同，AGI被认为是计算机科学的“终极难题”。他宣称，只有当机器人能像一个普通玩家那样，坐在客厅里拿起手柄、打开游戏机、通关《超级马里奥》，甚至学会抱怨“这关太难了”，才意味着AI真正理解了“打游戏”这件事背后的语义和物理交互。Sutton的强化学习算法将在此过程中扮演“大脑”的角色，而Carmack的工程能力则负责让这个大脑在真实世界中长出“手脚”。

让机器人“长出手脚”：从虚拟奖励到物理世界的闭环

技术落地的关键一步在于打破模拟与现实的壁垒。当前大多数强化学习项目都在数字仿真环境中运行，但Carmack和Sutton的团队正在推进一个反直觉的方向：让机器人直接进入真实世界。这意味着机器人必须在真实物理定律下学习抓取手柄的力道、按下按钮的触感，以及游戏中光效变化带来的视觉反馈。这种“真实世界打游戏”的范式，不仅考验强化学习在延迟、噪音和不确定性中的鲁棒性，更对机器人硬件提出了极高要求。如果成功，它将证明：一个能学会玩《毁灭战士》的机器人，也一定能学会洗碗、开车或诊断疾病。