只需几个抽象符号替代思维链,就能将推理成本压缩11倍

草稿链:用抽象符号替代自然语言

传统思维链(Chain-of-Thought)要求模型输出一步步自然语言解释,导致推理成本高昂。Zoom团队另辟蹊径,提出“草稿链”(Draft Chain)——为每个推理步骤生成简洁、信息密集的token,甚至仅用几个抽象符号替代完整的文字描述。例如,用“→”表示推理方向,用“▷”代表关键运算,让模型在几乎不损失准确率的前提下,大幅减少输出长度。这种“符号化”思路直接击中了长思维链的软肋:token数量骤减,成本自然直线下降。

只需几个抽象符号替代思维链,就能将推理成本压缩11倍

热启动+强化学习:训练密码

要让模型学会使用抽象符号而非自然语言,并非简单的提示工程。研究团队采用两阶段训练法:首先通过少量“符号化推理”示例进行热启动,让模型初步理解抽象符号的语义;随后引入强化学习(GRPO算法)进一步优化符号序列的生成策略。在此阶段,模型被严格限制——只允许输出抽象符号,不再有任何自然语言推理链作为辅助。通过reward函数对“短序列+高准确率”进行奖励,模型逐渐掌握了用最少符号解决复杂问题的能力。

成本骤降11倍:实验验证

在数学推理、逻辑谜题等多类基准测试中,使用抽象符号的模型在保持准确率接近原始CoT(±2%以内)的同时,平均推理token长度减少至原来的1/11。具体而言,原本需要输出数百个token的解题过程,现在仅需数十个抽象符号即可完成。折算成GPU推理成本,直接节省了约90%的算力开销。这项成果意味着:在不牺牲推理质量的前提下,大模型的部署和调用成本有望迎来革命性降低。

未来展望:动态符号与分层结构

研究团队在论文中指出了两条演进路径:一是动态调整抽象符号序列长度——根据问题难度分配不同长度的“思考预算”,简单题用更少符号,难题适当放宽;二是构建分层符号结构,让部分符号代表宏观步骤,另一部分符号代表微观运算,形成类似“大纲+细节”的推理层次。这种设计不仅能进一步压缩成本,还能让抽象符号的推理过程更具可解释性和可控性。