强化学习之父Sutton联手毁灭战士之父Carmack:让机器人进入真实世界打游戏
卡马克与萨顿的意外联盟:从毁灭战士到强化学习的碰撞
被誉为“毁灭战士之父”的传奇程序员John Carmack,与被称为“强化学习之父”的Richard Sutton,这对看似分属游戏和AI两个完全不同领域的巨头,竟在一个共同的愿景下走到了一起——All in AGI(通用人工智能)。对于外界来说,能与Sutton共事本身就是一份“意料之外的惊喜”,而Carmack对此直言不讳。他相信,人工智能不应只是成千上万行代码构成的固定程序,而应是一种能自我学习、持续成长的智能体,能够从单一领域的运算转向理解、学习并解决世界上最大的计算机科学问题。Sutton的强化学习框架,恰好为这一愿景提供了最底层的引擎。
2030年目标:让跳舞人形机器人成为AGI的试金石
Carmack在合作中提出了一个极具争议的路线图:2030年向公众展示通用人工智能的目标是可行的。为了让这一目标落地,他给出了一个颇具现实感的检验方法——让跳舞人形机器人拿取真实世界中的游戏手柄,然后真正地在屏幕上打游戏。对于那些认为完全具身的AGI即将实现的人来说,这无疑是一剂清醒剂。这一设想打破了传统AI只在虚拟环境中训练和模拟的局限,将“具身认知”推向了极致:AI必须在物理世界中操控物体、理解视觉反馈、规划动作序列,甚至可能还要应对手柄电量不足或按键卡住等意外情况。
从游戏引擎到世界模型:AI不再是单一任务的奴隶
Carmack长期以来对人类在游戏工业中的低效编程感到不满,他坚信一个真正的AGI应该能像人类一样,无需专门的游戏AI脚本,就能通过观察和互动掌握游戏规则。而Sutton的强化学习方法(如通过奖励函数让AI自主探索)正好为此提供了理论支撑。他们的合作并非简单的“游戏+AI”,而是试图构建一个“世界模型”——让AI先在一个数字世界中学会因果关系,再将这种学习能力迁移到现实。这标志着AI从“单一领域专用”向“跨领域通用”的转变,其野心远超当年《毁灭战士》的多边形渲染技术。
德州科技狂人的终极赌注:以自我学习破解计算科学的天花板
作为北德州的科技天才,Carmack将这次合作视为他人生中最大的一次“技术豪赌”。与以往任何游戏或VR项目不同,AGI被认为是计算机科学的“终极难题”。他宣称,只有当机器人能像一个普通玩家那样,坐在客厅里拿起手柄、打开游戏机、通关《超级马里奥》,甚至学会抱怨“这关太难了”,才意味着AI真正理解了“打游戏”这件事背后的语义和物理交互。Sutton的强化学习算法将在此过程中扮演“大脑”的角色,而Carmack的工程能力则负责让这个大脑在真实世界中长出“手脚”。
让机器人“长出手脚”:从虚拟奖励到物理世界的闭环
技术落地的关键一步在于打破模拟与现实的壁垒。当前大多数强化学习项目都在数字仿真环境中运行,但Carmack和Sutton的团队正在推进一个反直觉的方向:让机器人直接进入真实世界。这意味着机器人必须在真实物理定律下学习抓取手柄的力道、按下按钮的触感,以及游戏中光效变化带来的视觉反馈。这种“真实世界打游戏”的范式,不仅考验强化学习在延迟、噪音和不确定性中的鲁棒性,更对机器人硬件提出了极高要求。如果成功,它将证明:一个能学会玩《毁灭战士》的机器人,也一定能学会洗碗、开车或诊断疾病。