首页

登录

图灵奖得主查德 · 萨顿称普通生成式 AI 难以完成真正科学发现

1 个月前

AI资讯

53 阅读

生成式AI 机器学习科学发现图灵奖

科学发现需要三步闭环，AI只完成了第一步

在图灵奖得主理查德·萨顿看来，真正的科学发现遵循一个不可简化的三步闭环：变异、评估和选择性保留。

变异：产生大量不同的假设或输出，这是当前生成式大模型擅长的领域——它们能够高效生成海量的文本、图像或代码。
评估：对产生的每一个变异进行内部判断和筛选，区分哪些是有价值的新知，哪些是无效噪音。
选择性保留：将评估后有效的变异保留下来，作为下一次探索的基石，形成持续的知识进化循环。

萨顿明确指出，当前大部分机器学习模型的工作本质是“把人类已有的知识转移到一个静态、没有自主学习能力的AI上”，这种模式只完成了“变异”这一个环节，而缺失了最为关键的“评估”与“选择性保留”能力。

生成模型为何只会“变异”而不会“评估”

生成式AI在产生多样性方面表现突出，但它的核心缺陷在于缺乏内部评估机制。

依赖外部反馈：大语言模型（LLM）在训练后通常只能通过人类的即时反馈（如RLHF）或预设的奖励函数进行矫正，而非自身具备对输出质量的科学判断力。
知识与评估分离：模型内部分布了海量统计数据，但无法像科学家那样对“这个假设是否合理”进行自主推理和验证。萨顿认为，这种静态的知识复制，本质上只是“人类经验的转移”，而非科学发现中的动态批判过程。
无法区分新意与错误：在科学发现中，评估需要判断某个变异是否真正具有突破性或可验证性；而生成AI往往只是概率上“看起来合理”的输出堆砌，不具备区分真正创新与虚假关联的能力。

萨顿对LLM路线的根本质疑：我们可能走错了

作为强化学习的奠基人，理查德·萨顿对当前人工智能领域主流的大语言模型（LLM）路线提出了深刻质疑。他认为，我们可能走错了主流发展的方向。

经验学习 vs. 知识转移：萨顿强调，真正的AI应该像生物有机体或强化学习agent那样，在环境中通过试错（trial and error）来积累经验，而不是被动地吸收人类已有的静态知识。LLM的“知识转移”模式，本质上是让AI变成一个“人类知识的仓库”，而非一个能够主动探索和发现新规律的智能体。
缺乏反思与修正：科学发现的核心在于当已有知识冲突时能够提出新假设并自我修正，而LLM只是基于训练数据的统计分布进行重复，无法进行真正意义上的理性批判。
“静态AI”的局限：萨顿直言，当前大多数机器学习的目的只是把人类已有知识转移到一个“静态”的AI上。这种AI一旦训练完成，就失去了继续进化的能力，与科学发现所需的持续迭代特性背道而驰。

通往真正科学发现：AI需要“经验学习”的底层架构

针对如何让AI具备真正的科学发现能力，萨顿提出了截然不同的技术路线：转向以经验学习为核心的强化学习范式。

内在评估的构建：未来的AI需要内置一套“评估算法”，能够对自身产生的变异进行自主判断——类似科学实验中设计对照、分析因果关系的推理能力。
从封闭到开放：LLM目前被困在训练数据的封闭世界中；而科学发现需要AI能够主动与真实或模拟环境交互，在试错中积累经验，形成新的认知。
保留与遗忘的平衡：科学发现中的选择性保留环节，要求AI能够区分哪些变异值得保留、哪些需要摒弃。这与强化学习中的策略更新机制高度吻合，也是萨顿认为当前生成式AI最严重的缺失之一。

从外滩大会上的发言到与同行对话中，萨顿反复强调：真正的科学发现不是对已有知识的复述，而是对未知的主动探索。如果AI永远停留在“变异”阶段，它只能成为高效的模仿者，而永远无法成为创造者。