32B超越671B，M-A-P全开源数学定理证明模型OProver，五项评测三项第一

1 个月前

AI资讯

29 阅读

数学定理证明开源性能评测 OProver

OProver：让AI学会“改卷子”的数学证明机器

传统AI证明系统就像个只会“一次性写完答案”的学生——给一个题目，它一口气写出一段完整证明，交给Lean 4编译器验证，不行就重新写一份完全不同的，反复碰运气。这种“抽签式”证明效率极低，因为模型从不知道自己的答案错在哪里。

M-A-P研究团队推出的OProver彻底改写了规则：它让AI既能写证明，更能从每轮失败中“看懂”Lean编译器给出的具体错误提示，然后有针对性地修改，直到通过验证。就像学生把草稿交给一位严格到极致的老师，老师会明确指出“第7行类型不对，第12行函数未定义”——OProver做的就是把这些诊断信号内化为自身能力，让模型在训练阶段就学会如何根据反馈进行局部修正，而不是推理时才临时拼凑。

OProofs：一座记录失败与修正的数学证明档案馆

如果现有数学证明数据集是只收藏精装成品的图书馆，那么OProofs就是保留从草稿到终版全部修改历史的“出版社档案室”。这个由M-A-P团队构建的数据集包含约177万条Lean 4定理陈述和686万条经过验证的正确证明，但真正让它与众不同的是额外记录的“过程”信息：433万条证明带有检索上下文，86.9万条证明带有所次失败时收到的编译器错误信息，以及107万条完整的证明推进轨迹（其中16.4万条包含至少一次失败-修改循环）。

这些数据来自三个渠道：整理现有开源Lean资源并用证明器重新验证；从CommonCrawl网页和GitHub中自动筛选数学内容并转写为形式化陈述；以及OProver自身在训练中使用过程中产生的新证明和修改轨迹——随着模型能力提升，数据库不断扩充，形成良性循环。OProofs覆盖代数、分析、数论、几何等广泛领域，难度从初等算术到研究生级别，是目前唯一同时提供正式陈述、验证证明、自然语言推理过程、编译器错误反馈、检索上下文和多轮修改监督信号六个维度信息的公开数据集。

OProver的训练秘诀：从侦探查案到自我修炼的螺旋上升

OProver的工作方式可以形象地比作侦探破案：接到定理题目后，首先通过语义相似度模型（Qwen3-8B-Embedding）从OProofs数据库中检索最相似的已验证证明作为参考，这一步叫做检索增强；然后核心模型综合定理和参考，输出一段完整Lean 4证明代码；接着让Lean 4编译器充当“终极验证官”，要么通过，要么给出详细失败诊断；收到诊断后，OProver不会全盘推翻，而是进行局部修改，继续提交。系统每轮只记住最近一次的失败证明和对应错误，避免被历史信息淹没，让模型聚焦在最关键的问题上。

训练过程分为两大阶段：第一阶段是“通识教育”，在650亿token的混合数据（形式化数学、代码、数学推理、长思维链）上进行持续预训练，产出一个具备数学和编程基础素养的OProver-Base。第二阶段是“实战演练”，包含监督微调和强化学习的迭代后训练。监督微调收集“单轮修改样本”——（当前定理，参考证明，上一次失败的证明，Lean错误信息）→（修改后新证明）这样的四元组，让模型学会“如何改”；强化学习使用群序列策略优化（GSPO），对每道题生成多组多轮尝试，按每轮是否通过Lean验证赋予奖励，让模型同时从“不同尝试之间”和“同一尝试内不同轮次之间”两个维度学习对比。每轮训练完成后，新发现的证明和修改轨迹被送回数据库，用作下一轮的新素材——这个“训练-使用-反馈-再训练”的循环，就像侦探每破一案后都把侦破过程整理成教学案例，自身再学习一遍，档案室越来越丰富，侦查能力螺旋上升。

32B碾压671B：五项评测三项第一的成绩单

OProver-32B在五个主流数学定理证明测试集上的表现令人瞩目：MiniF2F（高中竞赛题）93.3%、ProverBench（竞赛+本科题）58.2%、PutnamBench（美国顶级本科竞赛题）11.3%，这三项均是所有开源整体证明模型中的最高分；在MathOlympiadBench上获得22.8%、ProofNet上33.2%，均为第二名。综合排名3个第一、2个第二，优于所有参与对比的开源模型。

对比具体数字更能体会差距：之前最强的开源模型DeepSeek-Prover-V2-671B（6710亿参数）在MiniF2F上仅82.4%，在PutnamBench上3.3%；OProver-32B参数量只有其约二十分之一，却在这两项上分别高出近11个和8个百分点。另一劲敌LongCat-Flash-Prover（5600亿参数混合专家模型，实际激活约270亿）在启用工具集成推理后在MathOlympiadBench上得到27.5%，略超OProver-32B的22.8%，这是OProver-32B唯一被超越的项目。较小的OProver-8B同样出色，在五套测试集上全部高于参数量是其四倍的Goedel-Prover-V2-32B，证明能力提升主要来自架构设计而非参数规模。

研究还探讨了“深度与广度如何分配”：在总预算固定时，对于MiniF2F等中等难度测试集，增加修改轮次（深度）能持续提升成功率，“16轮修改+相应数量独立尝试”是最优策略；但在极难的PutnamBench上，单次尝试成功率仅5%-11%，此时过多深度会挤占“广撒网”的独立尝试空间，所以“8轮修改”比“16轮”效果更好——难题应该多试方向，而非在一个方向上死磕。

消融实验揭示：多轮反馈才是真正的“纠偏神器”

为了量化核心组件贡献，研究团队做了系统的消融实验：首先拿掉多轮编译器反馈（让模型只生成一轮证明，不做任何修改，保留检索），成绩断崖式下降——OProver-32B在MiniF2F从93.3%降到88.4%，在ProofNet从33.2%降到25.8%，在PutnamBench从11.3%降到7.0%。在此基础上再拿掉检索（既不修改也不查参考），成绩进一步下降，但幅度明显更小。这说明多轮编译器反馈是性能提升的最主要来源，检索提供的是“出发前的方向感”，而编译器反馈提供的是“走错路之后的纠偏信号”，对于复杂证明，纠偏能力更为关键。

后训练迭代效果同样直观：OProver-8B经过三轮迭代，从持续预训练后的79.5%提升到91.8%，共提升12.3个百分点；OProver-32B经过两轮迭代，从84.7%提升到93.3%，提升8.6个百分点。每轮新数据和模型能力形成的正反馈，让这一数字单调递增，证明“把新证明和修改轨迹反馈回训练”的思路是可持续的。这项研究给AI证明领域指出了明确方向：真正有价值的不是堆积正确答案，而是记录“为什么失败、如何修正”的过程数据。OProver-32B以32B参数超越20倍于己的模型，证明在合适训练框架下，能力上限远比参数规模更能决定未来。