堆推理链全错了，林俊旸离职首曝：曾在阿里 Qwen 踩中一个“致命”技术误区

1 个月前

AI资讯

45 阅读

大模型技术反思推理链 CoT

近日，前阿里通义千问（Qwen）团队的重要成员林俊旸（Lin Junyang）在离职后首次接受了深度访谈，详细披露了他在阿里期间的一段核心技术反思。他坦承，其团队在Qwen模型的研发过程中，曾陷入对“堆推理链”（即过度依赖和堆砌思维链 CoT）的盲目追捧，最终发现这不仅未能有效提升模型能力，反而构成了一个“致命”的技术误区。这一内部反思揭示了当前大模型研发中普遍存在的技术路径依赖问题。

“堆推理链”的致命诱惑

在访谈中，林俊旸首先还原了当时的技术背景。彼时，Chain-of-Thought (CoT) 技术因其能显著提升大模型在数学、逻辑推理等复杂任务上的表现而备受推崇。业界普遍认为，只要让模型在生成最终答案前“多想几步”，就能无限逼近人类的思考模式。

在阿里Qwen团队的初期研发中，这种思维也占据了主流。

战术层面的误解： 团队初期将“更强的推理能力”简单等同于“更长的CoT长度”。为了追求评测指标（Benchmark）上的提升，模型被设计成倾向于生成冗长的中间推导步骤。
资源错配： 这种策略导致了巨大的算力浪费。模型将大量的计算资源消耗在了生成中间步骤上，而非直接构建正确的逻辑链条。林俊旸指出，这是一种“为了推理而推理”的战术误区。

这种误区之所以“致命”，是因为它混淆了手段与目的。当模型习惯了“堆砌”步骤来凑出答案，它并没有真正习得逻辑推演的内核，反而容易在长链条中引入错误，导致“一步错，步步错”的结果。

堆推理链全错了，林俊旸离职首曝：曾在阿里 Qwen 踩中一个“致命”技术误区

误区的核心：显式思考 vs. 隐式思考

随着研究的深入，林俊旸及其团队逐渐意识到，“堆推理链”误区的本质在于混淆了模型的“显式思考”与“隐式思考”。

显式思考（Explicit Thinking）： 即CoT，在Token空间内一步步展示推理过程。这虽然直观，但对于参数规模已经足够大的模型来说，这是一种低效的“占位符”。模型完全有能力在参数的高维空间中通过潜空间（Latent Space）完成复杂的内部运算，而无需将这些过程一一显性化。
隐式思考（Implicit Thinking）： 指模型在生成下一个Token时，内部已经完成了复杂的逻辑跳跃。过度依赖CoT，实际上是在强迫模型将内部的神经计算强行翻译成人类可读的语言，这不仅速度慢，而且在这个“翻译”过程中极易丢失精度或产生幻觉。

林俊旸反思道：“我们后来发现，最好的模型应该是‘不假思索’地给出正确答案，而不是写一整篇论文来证明它为什么正确。”过分强调显式的CoT，实际上是限制了模型潜能的一种表现。

转向与启示：从“长思考”到“强思考”

认清这一误区后，Qwen团队及相关大模型研发圈开始调整方向，从单纯追求推理长度转向追求推理的深度与效率。这一转变包含以下关键技术点：

拒绝无效的长链条： 也就是所谓的“慢思考”策略的退潮。团队开始探索如何让模型在极短的几步内完成逻辑闭环，或者完全摒弃CoT，通过后训练（Post-training）和强化学习（RL）直接优化模型的端到端输出质量。
混合策略的兴起： 不再一刀切地使用CoT，而是根据任务难度动态调整。对于简单任务，模型直接输出；对于困难任务，才启用内隐的或通过蒸馏压缩后的推理步骤。
数据清洗的重要性： 认识到堆砌推理链不仅无益反而有害后，团队在数据清洗上做了大量工作，剔除了那些包含大量无意义中间步骤的低质量合成数据，防止模型学到“废话文学”。