AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与

拖慢AI的“思考草稿”:显式思维链的昂贵代价

在数学、代码和逻辑推理任务中,让大语言模型(LLM)逐步生成中间步骤(即显式思维链,CoT)已成为提升准确率的标配手段。然而,这种“慢思考”的代价正被日益放大:一道复杂数学题可能消耗数百乃至数千个“思考token”,每个token都需严格串行生成,推理延迟随链条长度线性增长。对于需要快速响应的实时应用场景,这种“每一步等一步”的机制成为根本性瓶颈。

隐式思维链:把算盘珠打进隐藏状态

为了摆脱显式CoT的token开销,研究者开始探索“隐式思维链”(Implicit Chain-of-Thought, ICoT)——训练模型将中间计算步骤内化到隐藏状态中,最终只输出答案,中间过程完全不可见。但此前零星的尝试(如Yuntian Deng等人2024年的工作)缺乏理论支撑:若思维链有k步,需要k-1个训练阶段,且无人能证明ICoT学到的等价于显式CoT。这一空白,直到2025年伯克利和普林斯顿的联合团队才被填补。

对数级压缩:Log-ICoT如何把15步变为4步

研究团队以经典的“k-奇偶校验”问题作为理论沙盘——该问题没有中间步骤时难以学习,但配合显式CoT后单层Transformer即可掌握。他们发现,标准ICoT每次只隐藏一个token,完全浪费了思维链树状结构的层级特性。由此提出Log-ICoT:一次性隐藏整层中间节点(即二叉树的完整一层),训练阶段数从k-1骤降至log₂k。例如k=16时,阶段数从15减少到4,训练效率飞跃。

理论证明+可视化验证:模型真的在“按层算题”

论文的核心定理(Theorem 1)给出严格数学保证:一个L层Transformer在Log-ICoT课程下,只需多项式量级的样本和log₂k个梯度步,便能在测试时仅凭输入比特直接预测答案,误差指数级小,复杂度与显式CoT相当。实验进一步佐证——针对n=30输入比特、k=16(4层Transformer)的设置,模型在4个阶段后达到100%准确率。注意力热图清晰显示:第一层聚焦树的第一层节点对,第二层聚焦第二层……模型确实将思维链每一层“刻入”对应Transformer层。

从沙盘到现实:仍需跨过的三重门槛

尽管理论首次为ICoT奠定了可证明基础,论文坦诚指出目前依赖多项简化假设:固定价值矩阵、预设门控权重,以及奇偶校验这类具有明确层级结构的合成任务。将Log-ICoT迁移至真实LLM时,最大的挑战在于如何在没有天然树结构的情况下,设计合理的“阶段划分”方式。下一步,研究者需将理论框架扩展至更通用的推理任务,并探索如何让模型自动发现隐式推理的层级边界。