图灵奖得主Sutton新作:AI的下一步,是走向“生成认知”

世界本身就是它最好的模型

传统AI无论符号系统还是深度学习,都遵循“先输入、再处理、后行动”的线性流程,试图在内部构建一个精确的“世界副本”。但Sutton和Rafiee指出,真实世界是开放、动态且无限复杂的,任何有限的内部模型都无法完整捕捉其全部状态。机器人学家Rodney Brooks的名言被引入作为核心隐喻:世界本身就是它最好的模型。最可靠、最新鲜的信息永远存在于外部环境中,智能体不应试图用内部表征替代现实,而应保持与环境的持续互动,在实时反馈中调整行动、校准预期并形成理解。这一判断直接动摇了当前主流AI依赖大规模静态数据预训练的根基。

从“看见世界”到“在行动中理解世界”

生成认知(Enactive Cognition)源自认知科学的生成主义,其核心是:认知并非复制客观世界,而是在具身主体与环境的互动中生成。Sutton和Rafiee提炼出四个关键支柱:经验、感知与行动的不可分割性、自主性、具身性

图灵奖得主Sutton新作:AI的下一步,是走向“生成认知”

  • 经验不等于数据:监督学习依赖人类预先标注的静态数据集,模型学到的只是经验的“痕迹”,而非亲历的互动。真正的经验来自智能体在行动、反馈、失败与修正中持续获得的技能。
  • 感知即行动:人类通过眼球、头部、身体的运动主动改变输入,进而判断空间与物体。纯观察系统(如视频生成模型)可以学会预测视觉规律,但一旦环境出现异常,它们缺乏主动干预和试错的能力。
  • 自主性源于内在标准:环境中的事物之所以有意义,是因为它们关系到智能体自身的目标与持续存在。当前AI(大语言模型、传统规划系统)的成败标准大多由外部设计者指定,缺乏从自我维持过程中自然产生的内在评估。
  • 具身性塑造认知:身体的形态、传感器位置与行动方式直接决定智能体如何探索世界。同一把椅子对人类是“可坐的”,对蚂蚁是障碍物,对机器人则取决于其关节结构与控制能力。主流AI(包括许多机器人系统)仍将感知、规划与控制拆成独立模块,身体只是执行硬件,而非认知形成的核心条件。

强化学习的下一站:从外部奖励走向内在经验生成

论文明确判断,当前大语言模型和纯视觉模型仍然停留在被动表征与模式预测层面,距离“理解世界”有关键差距。相比之下,强化学习(RL)与生成认知存在最强的结构共鸣:RL强调行动、反馈、探索、适应和长期评估,是当下最接近生成认知理念的AI分支。

但Sutton也指出了RL的三重不足:

  • 奖励函数大多由外部指定,而非来自智能体自身的自我维持与组织结构。
  • 感知与行动在许多系统中仍被拆分为相对独立的步骤。
  • 具身性常被当作工程约束,而不是认知形成的基础。

因此,强化学习需要进一步演进:从外部奖励走向更内在的自我评估,从任务驱动走向持续生存与适应,从单纯优化策略走向真正的具身经验生成。这一方向可能推动AI从“服务器中的智能体”蜕变为能与真实物理世界深度互动、自我校准的认知系统。