林俊旸离职后首发文：我们为什么没把“思考+指令”合并好？

3 个月前

AI资讯

40 阅读

人工智能 AI开发模型架构技术分析

阿里通义千问团队的核心成员林俊旸在离职后发布首篇长文，深入剖析了AI模型发展中一个关键的技术困境：为何将能够进行深度推理的“思考模式”与快速响应的“指令模式”合二为一如此困难。他指出，这不仅仅是技术架构的融合，更是两种截然不同的数据分布与行为目标的博弈。强行合并往往导致模型在两种能力上都表现平庸，而真正的解决之道在于迈向“智能体式思考”——一种为了有效行动而思考的新范式。

“思考”与“指令”的融合困境

在2025年初，千问团队曾设定了一个雄心勃勃的目标：开发一个统一的系统，将“思考模式”与“指令模式”合二为一。理想中的模型能够支持可调节的推理力度（如低、中、高设置），甚至能根据上下文自主判断何时需要深度思考，何时只需直接回答。虽然这一方向在概念上被认为是正确的，但在实际操作中，“合并”却异常艰难。

问题的核心在于数据层面。当人们讨论合并时，往往关注模型架构的兼容性，但更深层的挑战在于两种模式的数据分布和行为目标存在显著差异。

思考模式：通常涉及长文本、复杂的逻辑链条和深度的推理过程，其目标是解决难题、编写代码或通过基准测试，追求的是过程的严谨性与结果的正确性。
指令模式：追求的是短、平、快的交互，目标是清晰、可靠且低成本地执行明确指令。

在尝试平衡模型合并与提升后训练数据质量和多样性的过程中，团队发现，如果处理不当，结果往往是两头不讨好：思考模式变得嘈杂、冗余或不够果断；指令模式则变得模糊不清，且推理成本远超商业用户的预期。

林俊旸离职后首发文：我们为什么没把“思考+指令”合并好？

2025年的新范式：“智能体式思考”

林俊旸预测，行业正在从“推理式思考”阶段（以OpenAI o1和DeepSeek-R1为代表）迈向“智能体式思考”阶段。

推理式思考：关注的是“模型能否思考得足够久”。其核心衡量标准是内部思辨的质量，例如能否解出定理、写出证明。林俊旸指出，业界曾有一个误区，认为推理链越长模型越聪明，但很多时候，推理链越长反而证明模型在“乱花算力”，在进行无效的思考。
智能体式思考：核心转变为“为了行动而思考”。它不再单纯追求文本层面的逻辑自洽，而是关注模型能否在与环境的交互中持续取得进展，根据反馈不断更新计划。

这意味着评估标准发生了根本性的变化：不再是在真空环境中看模型“想”了什么，而是看它在真实世界中“做”了什么。好的思考不再是最长或最显眼的那条轨迹，而是在真实约束下最能支撑起有效行动的那条轨迹。

范式转移：从“训练模型”到“训练智能体”

这一转变标志着行业正在经历一个根本性的跨越：算力规模的重心正从预训练向针对推理的后训练转移，且其定义特征是与真实世界的闭环交互。

优化目标的改变：
- 过去：专注于模型本身的训练，优化损失函数，追求在 benchmarks 上的高分。
- 现在：训练对象变成了“模型 + 环境”的整个系统。核心问题不再是模型能否独自思考，而是它能不能以一种能支撑有效行动的方式思考。
核心要素的重构：
在智能体时代，虽然模型架构和训练数据依然重要，但以下因素的重要性急剧上升，进入了核心圈：
- 环境设计：构建什么样的场景让智能体去交互。
- Rollout 基础设施：支持智能体在环境中大规模尝试和执行的系统能力。
- 评估器的稳健程度：如何准确衡量智能体行动的有效性，而非仅仅是文本的准确性。
- 多智能体协调：多个智能体之间如何协作完成复杂任务。

结论：寻找通往成功的平滑光谱

面对“合并”的失败与新范式的兴起，林俊旸及千问团队在实践中也作出了调整。在2025年下半年发布的Qwen 2507版本中，团队选择了分别发布独立的 Instruct（指令）和 Thinking（思考）版本，这表明在当前阶段，分开做在实践中仍具有吸引力，能够保证各自能力的极致发挥。

然而，最终的目标依然是融合。林俊旸认为，真正成功的合并，需要构建一个平滑的推理力度光谱（Spectrum）。在这个光谱上，模型不再是非黑即白地切换模式，而是能够根据任务需求、上下文环境和成本预算，平滑地调整推理的深度和方式，像一个真正的智能体一样，自主决定该花多少力气去想，然后去行动。这才是AI通往下一阶段的必经之路。

林俊旸离职后首发文：我们为什么没把“思考+指令”合并好？

“思考”与“指令”的融合困境

2025年的新范式：“智能体式思考”

范式转移：从“训练模型”到“训练智能体”

结论：寻找通往成功的平滑光谱

链接失效反馈