图灵奖得主查德 · 萨顿称普通生成式 AI 难以完成真正科学发现

科学发现需要三步闭环,AI只完成了第一步

在图灵奖得主理查德·萨顿看来,真正的科学发现遵循一个不可简化的三步闭环:变异、评估和选择性保留

  • 变异:产生大量不同的假设或输出,这是当前生成式大模型擅长的领域——它们能够高效生成海量的文本、图像或代码。
  • 评估:对产生的每一个变异进行内部判断和筛选,区分哪些是有价值的新知,哪些是无效噪音。
  • 选择性保留:将评估后有效的变异保留下来,作为下一次探索的基石,形成持续的知识进化循环。

萨顿明确指出,当前大部分机器学习模型的工作本质是“把人类已有的知识转移到一个静态、没有自主学习能力的AI上”,这种模式只完成了“变异”这一个环节,而缺失了最为关键的“评估”与“选择性保留”能力。

生成模型为何只会“变异”而不会“评估”

生成式AI在产生多样性方面表现突出,但它的核心缺陷在于缺乏内部评估机制

  • 依赖外部反馈:大语言模型(LLM)在训练后通常只能通过人类的即时反馈(如RLHF)或预设的奖励函数进行矫正,而非自身具备对输出质量的科学判断力。
  • 知识与评估分离:模型内部分布了海量统计数据,但无法像科学家那样对“这个假设是否合理”进行自主推理和验证。萨顿认为,这种静态的知识复制,本质上只是“人类经验的转移”,而非科学发现中的动态批判过程。
  • 无法区分新意与错误:在科学发现中,评估需要判断某个变异是否真正具有突破性或可验证性;而生成AI往往只是概率上“看起来合理”的输出堆砌,不具备区分真正创新与虚假关联的能力。

萨顿对LLM路线的根本质疑:我们可能走错了

作为强化学习的奠基人,理查德·萨顿对当前人工智能领域主流的大语言模型(LLM)路线提出了深刻质疑。他认为,我们可能走错了主流发展的方向

  • 经验学习 vs. 知识转移:萨顿强调,真正的AI应该像生物有机体或强化学习agent那样,在环境中通过试错(trial and error)来积累经验,而不是被动地吸收人类已有的静态知识。LLM的“知识转移”模式,本质上是让AI变成一个“人类知识的仓库”,而非一个能够主动探索和发现新规律的智能体。
  • 缺乏反思与修正:科学发现的核心在于当已有知识冲突时能够提出新假设并自我修正,而LLM只是基于训练数据的统计分布进行重复,无法进行真正意义上的理性批判。
  • “静态AI”的局限:萨顿直言,当前大多数机器学习的目的只是把人类已有知识转移到一个“静态”的AI上。这种AI一旦训练完成,就失去了继续进化的能力,与科学发现所需的持续迭代特性背道而驰。

通往真正科学发现:AI需要“经验学习”的底层架构

针对如何让AI具备真正的科学发现能力,萨顿提出了截然不同的技术路线:转向以经验学习为核心的强化学习范式

  • 内在评估的构建:未来的AI需要内置一套“评估算法”,能够对自身产生的变异进行自主判断——类似科学实验中设计对照、分析因果关系的推理能力。
  • 从封闭到开放:LLM目前被困在训练数据的封闭世界中;而科学发现需要AI能够主动与真实或模拟环境交互,在试错中积累经验,形成新的认知。
  • 保留与遗忘的平衡:科学发现中的选择性保留环节,要求AI能够区分哪些变异值得保留、哪些需要摒弃。这与强化学习中的策略更新机制高度吻合,也是萨顿认为当前生成式AI最严重的缺失之一。

从外滩大会上的发言到与同行对话中,萨顿反复强调:真正的科学发现不是对已有知识的复述,而是对未知的主动探索。如果AI永远停留在“变异”阶段,它只能成为高效的模仿者,而永远无法成为创造者。