林俊旸离职后首次发声，复盘千问的弯路，指出AI的新路

3 个月前

AI资讯

108 阅读

AI 千问林俊旸范式转变

在离开阿里通义实验室后，林俊旸并未沉寂太久。日前，他发布长文，罕见地回应了业界对千问团队变动的猜测，将焦点引向了更深层次的技术反思：从“推理模型时代的思考”向“智能体时代思考”的范式转变。在这篇文章中，他坦诚承认千问在发展路径上“没有全做对”，并对未来AI的发展方向提出了基于实践的深刻洞察。

对“推理模型时代”的反思与弯路复盘

林俊旸将过去的探索阶段定义为“推理模型时代的思考”。他指出，2025年上半年，行业几乎将所有精力都集中在如何让模型花更多时间进行推理、如何训练更强的奖励模型以及如何控制推理力度上。OpenAI的o1模型证明了“思考”可以成为一种被专门训练并向用户开放的一级能力。

然而，这种对纯推理的过度追求暴露了明显的缺陷。林俊旸坦率地表示，在迭代过程中，团队发现最终的“Thinking”（思考）模式变得啰嗦且犹豫不决，而“Instruct”（指令）模式则变得不够干脆、不够可靠，甚至成本更高。这种分裂导致模型在商业化部署中面临尴尬：大量客户仍需要高吞吐、低成本、高度可控的指令行为来进行批量操作，而过度的思考往往被视为算力分配低效的信号。

此外，他也提到了当时行业流行的“混合思维模式”尝试，即在一个模型中同时支持思考和非思考行为。虽然Anthropic的Claude 3.7、DeepSeek V3.1等都在探索类似路径，强调可控的思维预算，但林俊旸指出，如果合并数据未经精心策划，结果往往是两边都做得平庸。这或许是千问在迈向Qwen 3.5过程中遭遇波折、部分指标未能达到预期的重要原因之一。

林俊旸离职后首次发声，复盘千问的弯路，指出AI的新路

范式转移：从“想得更久”到“为了行动而思考”

基于上述反思，林俊旸明确提出了AI未来的全新范式——智能体思考（Agentic Thinking）。这意味着核心关注点从“模型能不能想得足够久？”转变为“模型能不能以一种维持有效行动的方式来思考？”

他认为，纯推理模型的局限在于它们往往是在封闭的“独角戏”中生成华丽的中间文字，而缺乏与真实世界的闭环交互。相比之下，智能体思考强调的是：为了行动而思考，在与环境的交互中思考，并根据来自真实世界的反馈持续更新计划。 一个真正的智能体需要制定计划、决定何时行动、使用工具、感知环境反馈并修正策略。

在这个视角下，那些缺乏交互的冗长内部推理轨迹正在变得过时。即使面对困难的数学或编程任务，一个先进的系统也应当有权去搜索、模拟、执行、检查、验证和修正，而不是仅仅通过输出海量文字来试图推导答案。

智能体时代的挑战：环境设计与Harness工程

如果智能体是未来，那么训练的重心也随之转移。林俊旸强调，训练的核心对象已经不再仅仅是模型本身，而是“模型+环境”的系统。这就引出了智能体时代的核心竞争力：

环境质量（Environment Quality）： 类似于SFT时代痴迷于数据多样性，智能体时代应痴迷于环境的质量，包括稳定性、真实性、覆盖度、难度、状态多样性和反馈丰富度。
防作弊能力： 智能体RL面临着独特的风险，例如模型可能通过滥用日志或发现捷径来“作弊”通过任务。因此，环境设计和评估器的鲁棒性变得至关重要。
Harness工程（编排工程）： 这是未来的关键竞争力之一。随着RL从SFT的轻量附加模块转变为系统工程问题，需要大规模的轨迹采样、高吞吐量的验证和稳定的策略更新。
多智能体编排： 核心智能将来自多个智能体的组织方式，包括负责规划的编排者、分工明确的专业智能体以及执行窄任务的子智能体。这需要在系统层面进行复杂的协调与接口设计。

展望：理想系统与通向AGI的路径

在文章的最后，林俊旸勾勒了理想中的AI系统蓝图。这是一个统一了思考模式和指令模式的系统，它应支持可调节的推理力度，甚至能从上下文中自动推断出所需的推理量——让模型自行决定何时直接回答、何时深入思考。

他总结道，未来的竞争优势不再仅仅来自更好的模型参数，而是来自更好的环境设计、更强的Harness工程、更紧密的训练-推理耦合以及多智能体之间的高效编排。

林俊旸的这次发声，不仅是对千问过往经历的一次深度复盘，更为行业在大模型技术进入深水区后指明了一条务实的发展路径：从“造一个聪明的大脑”转向“构建一个能有效行动的智能体系统”。这或许就是他眼中AI真正的“新路”。

林俊旸离职后首次发声，复盘千问的弯路，指出AI的新路

对“推理模型时代”的反思与弯路复盘

范式转移：从“想得更久”到“为了行动而思考”

智能体时代的挑战：环境设计与Harness工程

展望：理想系统与通向AGI的路径

链接失效反馈