林俊旸离职后首次发声,复盘千问的弯路,指出AI的新路
在离开阿里通义实验室后,林俊旸并未沉寂太久。日前,他发布长文,罕见地回应了业界对千问团队变动的猜测,将焦点引向了更深层次的技术反思:从“推理模型时代的思考”向“智能体时代思考”的范式转变。在这篇文章中,他坦诚承认千问在发展路径上“没有全做对”,并对未来AI的发展方向提出了基于实践的深刻洞察。
对“推理模型时代”的反思与弯路复盘
林俊旸将过去的探索阶段定义为“推理模型时代的思考”。他指出,2025年上半年,行业几乎将所有精力都集中在如何让模型花更多时间进行推理、如何训练更强的奖励模型以及如何控制推理力度上。OpenAI的o1模型证明了“思考”可以成为一种被专门训练并向用户开放的一级能力。
然而,这种对纯推理的过度追求暴露了明显的缺陷。林俊旸坦率地表示,在迭代过程中,团队发现最终的“Thinking”(思考)模式变得啰嗦且犹豫不决,而“Instruct”(指令)模式则变得不够干脆、不够可靠,甚至成本更高。这种分裂导致模型在商业化部署中面临尴尬:大量客户仍需要高吞吐、低成本、高度可控的指令行为来进行批量操作,而过度的思考往往被视为算力分配低效的信号。
此外,他也提到了当时行业流行的“混合思维模式”尝试,即在一个模型中同时支持思考和非思考行为。虽然Anthropic的Claude 3.7、DeepSeek V3.1等都在探索类似路径,强调可控的思维预算,但林俊旸指出,如果合并数据未经精心策划,结果往往是两边都做得平庸。这或许是千问在迈向Qwen 3.5过程中遭遇波折、部分指标未能达到预期的重要原因之一。

范式转移:从“想得更久”到“为了行动而思考”
基于上述反思,林俊旸明确提出了AI未来的全新范式——智能体思考(Agentic Thinking)。这意味着核心关注点从“模型能不能想得足够久?”转变为“模型能不能以一种维持有效行动的方式来思考?”
他认为,纯推理模型的局限在于它们往往是在封闭的“独角戏”中生成华丽的中间文字,而缺乏与真实世界的闭环交互。相比之下,智能体思考强调的是:为了行动而思考,在与环境的交互中思考,并根据来自真实世界的反馈持续更新计划。 一个真正的智能体需要制定计划、决定何时行动、使用工具、感知环境反馈并修正策略。
在这个视角下,那些缺乏交互的冗长内部推理轨迹正在变得过时。即使面对困难的数学或编程任务,一个先进的系统也应当有权去搜索、模拟、执行、检查、验证和修正,而不是仅仅通过输出海量文字来试图推导答案。
智能体时代的挑战:环境设计与Harness工程
如果智能体是未来,那么训练的重心也随之转移。林俊旸强调,训练的核心对象已经不再仅仅是模型本身,而是“模型+环境”的系统。这就引出了智能体时代的核心竞争力:
- 环境质量(Environment Quality): 类似于SFT时代痴迷于数据多样性,智能体时代应痴迷于环境的质量,包括稳定性、真实性、覆盖度、难度、状态多样性和反馈丰富度。
- 防作弊能力: 智能体RL面临着独特的风险,例如模型可能通过滥用日志或发现捷径来“作弊”通过任务。因此,环境设计和评估器的鲁棒性变得至关重要。
- Harness工程(编排工程): 这是未来的关键竞争力之一。随着RL从SFT的轻量附加模块转变为系统工程问题,需要大规模的轨迹采样、高吞吐量的验证和稳定的策略更新。
- 多智能体编排: 核心智能将来自多个智能体的组织方式,包括负责规划的编排者、分工明确的专业智能体以及执行窄任务的子智能体。这需要在系统层面进行复杂的协调与接口设计。
展望:理想系统与通向AGI的路径
在文章的最后,林俊旸勾勒了理想中的AI系统蓝图。这是一个统一了思考模式和指令模式的系统,它应支持可调节的推理力度,甚至能从上下文中自动推断出所需的推理量——让模型自行决定何时直接回答、何时深入思考。
他总结道,未来的竞争优势不再仅仅来自更好的模型参数,而是来自更好的环境设计、更强的Harness工程、更紧密的训练-推理耦合以及多智能体之间的高效编排。
林俊旸的这次发声,不仅是对千问过往经历的一次深度复盘,更为行业在大模型技术进入深水区后指明了一条务实的发展路径:从“造一个聪明的大脑”转向“构建一个能有效行动的智能体系统”。这或许就是他眼中AI真正的“新路”。