林俊旸离职后首发文:我们为什么没把“思考+指令”合并好?

阿里通义千问团队的核心成员林俊旸在离职后发布首篇长文,深入剖析了AI模型发展中一个关键的技术困境:为何将能够进行深度推理的“思考模式”与快速响应的“指令模式”合二为一如此困难。他指出,这不仅仅是技术架构的融合,更是两种截然不同的数据分布与行为目标的博弈。强行合并往往导致模型在两种能力上都表现平庸,而真正的解决之道在于迈向“智能体式思考”——一种为了有效行动而思考的新范式。

“思考”与“指令”的融合困境

在2025年初,千问团队曾设定了一个雄心勃勃的目标:开发一个统一的系统,将“思考模式”与“指令模式”合二为一。理想中的模型能够支持可调节的推理力度(如低、中、高设置),甚至能根据上下文自主判断何时需要深度思考,何时只需直接回答。虽然这一方向在概念上被认为是正确的,但在实际操作中,“合并”却异常艰难。

问题的核心在于数据层面。当人们讨论合并时,往往关注模型架构的兼容性,但更深层的挑战在于两种模式的数据分布和行为目标存在显著差异。

  • 思考模式:通常涉及长文本、复杂的逻辑链条和深度的推理过程,其目标是解决难题、编写代码或通过基准测试,追求的是过程的严谨性与结果的正确性。
  • 指令模式:追求的是短、平、快的交互,目标是清晰、可靠且低成本地执行明确指令。

在尝试平衡模型合并与提升后训练数据质量和多样性的过程中,团队发现,如果处理不当,结果往往是两头不讨好:思考模式变得嘈杂、冗余或不够果断;指令模式则变得模糊不清,且推理成本远超商业用户的预期。

林俊旸离职后首发文:我们为什么没把“思考+指令”合并好?

2025年的新范式:“智能体式思考”

林俊旸预测,行业正在从“推理式思考”阶段(以OpenAI o1和DeepSeek-R1为代表)迈向“智能体式思考”阶段。

  • 推理式思考:关注的是“模型能否思考得足够久”。其核心衡量标准是内部思辨的质量,例如能否解出定理、写出证明。林俊旸指出,业界曾有一个误区,认为推理链越长模型越聪明,但很多时候,推理链越长反而证明模型在“乱花算力”,在进行无效的思考。
  • 智能体式思考:核心转变为“为了行动而思考”。它不再单纯追求文本层面的逻辑自洽,而是关注模型能否在与环境的交互中持续取得进展,根据反馈不断更新计划。

这意味着评估标准发生了根本性的变化:不再是在真空环境中看模型“想”了什么,而是看它在真实世界中“做”了什么。好的思考不再是最长或最显眼的那条轨迹,而是在真实约束下最能支撑起有效行动的那条轨迹。

范式转移:从“训练模型”到“训练智能体”

这一转变标志着行业正在经历一个根本性的跨越:算力规模的重心正从预训练向针对推理的后训练转移,且其定义特征是与真实世界的闭环交互。

  1. 优化目标的改变

    • 过去:专注于模型本身的训练,优化损失函数,追求在 benchmarks 上的高分。
    • 现在:训练对象变成了“模型 + 环境”的整个系统。核心问题不再是模型能否独自思考,而是它能不能以一种能支撑有效行动的方式思考。
  2. 核心要素的重构
    在智能体时代,虽然模型架构和训练数据依然重要,但以下因素的重要性急剧上升,进入了核心圈:

    • 环境设计:构建什么样的场景让智能体去交互。
    • Rollout 基础设施:支持智能体在环境中大规模尝试和执行的系统能力。
    • 评估器的稳健程度:如何准确衡量智能体行动的有效性,而非仅仅是文本的准确性。
    • 多智能体协调:多个智能体之间如何协作完成复杂任务。

结论:寻找通往成功的平滑光谱

面对“合并”的失败与新范式的兴起,林俊旸及千问团队在实践中也作出了调整。在2025年下半年发布的Qwen 2507版本中,团队选择了分别发布独立的 Instruct(指令)和 Thinking(思考)版本,这表明在当前阶段,分开做在实践中仍具有吸引力,能够保证各自能力的极致发挥。

然而,最终的目标依然是融合。林俊旸认为,真正成功的合并,需要构建一个平滑的推理力度光谱(Spectrum)。在这个光谱上,模型不再是非黑即白地切换模式,而是能够根据任务需求、上下文环境和成本预算,平滑地调整推理的深度和方式,像一个真正的智能体一样,自主决定该花多少力气去想,然后去行动。这才是AI通往下一阶段的必经之路。