图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

1 个月前

AI资讯

39 阅读

[AI 图灵奖生成认知世界模型]

世界本身就是它最好的模型

传统AI无论符号系统还是深度学习，都遵循“先输入、再处理、后行动”的线性流程，试图在内部构建一个精确的“世界副本”。但Sutton和Rafiee指出，真实世界是开放、动态且无限复杂的，任何有限的内部模型都无法完整捕捉其全部状态。机器人学家Rodney Brooks的名言被引入作为核心隐喻：世界本身就是它最好的模型。最可靠、最新鲜的信息永远存在于外部环境中，智能体不应试图用内部表征替代现实，而应保持与环境的持续互动，在实时反馈中调整行动、校准预期并形成理解。这一判断直接动摇了当前主流AI依赖大规模静态数据预训练的根基。

从“看见世界”到“在行动中理解世界”

生成认知（Enactive Cognition）源自认知科学的生成主义，其核心是：认知并非复制客观世界，而是在具身主体与环境的互动中生成。Sutton和Rafiee提炼出四个关键支柱：经验、感知与行动的不可分割性、自主性、具身性。

图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

经验不等于数据：监督学习依赖人类预先标注的静态数据集，模型学到的只是经验的“痕迹”，而非亲历的互动。真正的经验来自智能体在行动、反馈、失败与修正中持续获得的技能。
感知即行动：人类通过眼球、头部、身体的运动主动改变输入，进而判断空间与物体。纯观察系统（如视频生成模型）可以学会预测视觉规律，但一旦环境出现异常，它们缺乏主动干预和试错的能力。
自主性源于内在标准：环境中的事物之所以有意义，是因为它们关系到智能体自身的目标与持续存在。当前AI（大语言模型、传统规划系统）的成败标准大多由外部设计者指定，缺乏从自我维持过程中自然产生的内在评估。
具身性塑造认知：身体的形态、传感器位置与行动方式直接决定智能体如何探索世界。同一把椅子对人类是“可坐的”，对蚂蚁是障碍物，对机器人则取决于其关节结构与控制能力。主流AI（包括许多机器人系统）仍将感知、规划与控制拆成独立模块，身体只是执行硬件，而非认知形成的核心条件。

强化学习的下一站：从外部奖励走向内在经验生成

论文明确判断，当前大语言模型和纯视觉模型仍然停留在被动表征与模式预测层面，距离“理解世界”有关键差距。相比之下，强化学习（RL）与生成认知存在最强的结构共鸣：RL强调行动、反馈、探索、适应和长期评估，是当下最接近生成认知理念的AI分支。

但Sutton也指出了RL的三重不足：

奖励函数大多由外部指定，而非来自智能体自身的自我维持与组织结构。
感知与行动在许多系统中仍被拆分为相对独立的步骤。
具身性常被当作工程约束，而不是认知形成的基础。

因此，强化学习需要进一步演进：从外部奖励走向更内在的自我评估，从任务驱动走向持续生存与适应，从单纯优化策略走向真正的具身经验生成。这一方向可能推动AI从“服务器中的智能体”蜕变为能与真实物理世界深度互动、自我校准的认知系统。

图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

世界本身就是它最好的模型

从“看见世界”到“在行动中理解世界”

强化学习的下一站：从外部奖励走向内在经验生成

链接失效反馈