首页

登录

美团龙猫开源LongCat-Flash-Prover

3 个月前

AI资讯

103 阅读

大模型数学定理证明形式化推理美团

LongCat-Flash-Prover 是美团龙猫（LongCat）团队开源的专门用于数学形式化与定理证明的深度学习模型。该模型旨在解决大语言模型在处理高精度、严密数学推演时常见的逻辑不严谨问题，通过创新的“工具集成推理”和“原子能力拆解”策略，显著提升了数学证明的准确性和可靠性。

核心架构与推理策略

LongCat-Flash-Prover 的核心技术突破在于将复杂的数学证明过程拆解为三个可管理的原子能力，并结合外部工具进行协作推理：

三大原子能力：模型将形式化推理流程拆解为自动形式化（Auto-Formalization）、草稿生成（Sketching）与证明生成（Proving）。这种模块化处理使得模型能够先将自然语言数学题转化为形式化语言（如Lean4），生成证明思路草稿，最后生成严谨的证明代码。
工具集成推理 (TIR)：模型不再依赖纯生成式的“猜测”，而是采用工具集成推理策略。在推理过程中，模型调用 Lean4Server 等外部工具进行实时校验，如果生成的证明步骤无法通过验证，模型会根据反馈进行修正，从而实现迭代优化。
专家迭代框架：底层架构采用混合专家（MoE）模型，配合分层 Masking 策略和 Token 层面的 Staleness 控制，解决了 MoE 架构在强化学习训练中稳定性差的问题。

美团龙猫开源LongCat-Flash-Prover

卓越的性能表现

在多项极具挑战性的基准测试中，LongCat-Flash-Prover 展示了超越现有开源模型的性能：

MiniF2F-Test：这是衡量数学定理证明能力的标准基准测试。LongCat-Flash-Prover 仅需 72次推理预算（Inference Budget），通过率便达到了惊人的 97.1%，刷新了开源模型的最佳记录。
高难度竞赛级任务：
- MathOlympiad-Bench（数学奥林匹克级）：通过率达到 46.7%。
- PutnamBench（普特南数学竞赛级）：通过率达到 41.5%。
- 上述分数均显著领先于目前的其他开源方案。
草稿策略增益：研究数据显示，引入“草稿生成”策略后，模型的证明准确率平均提升了约 10%。

美团龙猫开源LongCat-Flash-Prover

严谨性与防“作弊”机制

为了确保 AI 生成的证明不仅仅是形式上的正确，更是逻辑上的严密，LongCat-Flash-Prover 引入了多层验证机制：

应对“AI 作弊”：AI 模型有时会生成看似合理但实际上是“幻觉”的引理，或者利用未定义的假设来完成证明。该模型引入了针对 9 种常见作弊行为的合法性验证机制。
严格性保障：通过语义一致性检测和定理一致性检测，模型能够有效识别并规避逻辑漏洞或代码欺骗行为，确保输出的每一步证明都经得起逐行推敲。这标志着 AI 在数学领域正从“猜测答案”转向构建可验证的严谨逻辑链条。

开源与行业影响

完全开源：目前，LongCat-Flash-Prover 的代码、模型权重及相关技术报告已在 GitHub 和 Hugging Face 平台全面开源。
科研基础设施：该模型的发布被视为 AI 深度参与基础科学研究的重要里程碑。它不仅是竞赛解题工具，更有望成为未来数学定理验证、文献自动化审核以及辅助数学家进行前沿探索的基础科学设施。
参数量级：据相关技术细节显示，该模型拥有约 5600亿总参数（虽为 MoE 架构，多数参数未激活），在专注于 Lean4 原生形式推理的同时，展现了强大的工程与模型设计能力。