AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

1 个月前

AI资讯

58 阅读

大语言模型 AI推理隐式思维链理论证明

拖慢AI的“思考草稿”：显式思维链的昂贵代价

在数学、代码和逻辑推理任务中，让大语言模型（LLM）逐步生成中间步骤（即显式思维链，CoT）已成为提升准确率的标配手段。然而，这种“慢思考”的代价正被日益放大：一道复杂数学题可能消耗数百乃至数千个“思考token”，每个token都需严格串行生成，推理延迟随链条长度线性增长。对于需要快速响应的实时应用场景，这种“每一步等一步”的机制成为根本性瓶颈。

隐式思维链：把算盘珠打进隐藏状态

为了摆脱显式CoT的token开销，研究者开始探索“隐式思维链”（Implicit Chain-of-Thought, ICoT）——训练模型将中间计算步骤内化到隐藏状态中，最终只输出答案，中间过程完全不可见。但此前零星的尝试（如Yuntian Deng等人2024年的工作）缺乏理论支撑：若思维链有k步，需要k-1个训练阶段，且无人能证明ICoT学到的等价于显式CoT。这一空白，直到2025年伯克利和普林斯顿的联合团队才被填补。

对数级压缩：Log-ICoT如何把15步变为4步

研究团队以经典的“k-奇偶校验”问题作为理论沙盘——该问题没有中间步骤时难以学习，但配合显式CoT后单层Transformer即可掌握。他们发现，标准ICoT每次只隐藏一个token，完全浪费了思维链树状结构的层级特性。由此提出Log-ICoT：一次性隐藏整层中间节点（即二叉树的完整一层），训练阶段数从k-1骤降至log₂k。例如k=16时，阶段数从15减少到4，训练效率飞跃。

理论证明+可视化验证：模型真的在“按层算题”

论文的核心定理（Theorem 1）给出严格数学保证：一个L层Transformer在Log-ICoT课程下，只需多项式量级的样本和log₂k个梯度步，便能在测试时仅凭输入比特直接预测答案，误差指数级小，复杂度与显式CoT相当。实验进一步佐证——针对n=30输入比特、k=16（4层Transformer）的设置，模型在4个阶段后达到100%准确率。注意力热图清晰显示：第一层聚焦树的第一层节点对，第二层聚焦第二层……模型确实将思维链每一层“刻入”对应Transformer层。

从沙盘到现实：仍需跨过的三重门槛

尽管理论首次为ICoT奠定了可证明基础，论文坦诚指出目前依赖多项简化假设：固定价值矩阵、预设门控权重，以及奇偶校验这类具有明确层级结构的合成任务。将Log-ICoT迁移至真实LLM时，最大的挑战在于如何在没有天然树结构的情况下，设计合理的“阶段划分”方式。下一步，研究者需将理论框架扩展至更通用的推理任务，并探索如何让模型自动发现隐式推理的层级边界。