谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

1 个月前

AI资讯

45 阅读

数学难题进化算法 AI证明 AlphaProof

进化算法+LLM+Lean：AI证明的“三驾马车”

AlphaProof Nexus的核心是一个多智能体协作系统：多个证明子智能体并行工作，每个与Gemini 3.1 Pro进行多轮对话，通过搜索替换工具修改Lean代码。编译器实时反馈错误信息，子智能体根据反馈迭代修正。系统还引入进化算法——共享一个“种群数据库”，每个证明草稿由LLM评审员用Elo评分系统打分，高分草稿被优先采样、变异、进化。整个流程形成闭环：AI提出证明草稿→Lean编译器验证→失败则反馈错误→AI修正→再验证→循环往复，直到证明完全通过或耗尽算力预算。这套“进化算法 + AlphaProof + Gemini 3.1 Pro”的组合，成为DeepMind扫荡Erdős问题的主力武器。

56年悬案告破：Erdős问题全面突破

在9道Erdős开放问题中，最古老的一道悬置了整整56年。以编号#125为例，问题涉及是否存在一个无限集A，满足“任意三个不同元素a<b,c，都不存在a整除b+c”，同时密度达到N^(1/2)量级。AlphaProof先搞定6个子目标中的3个，随后子智能体将剩余“硬骨头”分解为更小引理，再次调用AlphaProof——全部攻克。证明核心是一个归纳稀疏化论证，巧妙利用3^m和4^k的丢番图逼近性质（log4/log3是无理数），通过反复找到两个基数几乎对齐的尺度，让密度以0.99的比率逐步衰减到零。另一道关于van der Waerden数W(k+1)-W(k)是否趋于无穷的问题，AI给出极其优雅的证明：W(k+1) ≥ W(k) + k，核心思路是贪心染色扩展。

谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

横扫数学前沿：代数几何、凸优化等多领域开花

除了Erdős问题，AlphaProof Nexus在多个数学方向取得突破：

OEIS猜想：系统自动形式化了492个开放猜想，证明了其中44个。为防止形式化错误，系统要求先证明“测试引理”——验证序列前几项与形式化定义一致——才能尝试目标猜想。
代数几何：解决了一个悬置约15年的开放问题——证明了余维数3、类型2的纯O-序列的对数凹性，此前被认为是该领域最后一个主要未解情况。
凸优化：解决了一个关于锚定梯度下降-上升算法（Anchored GDA）精确收敛速率的开放问题。AI不仅验证了固定算法，还在证明过程中自主搜索并发现了一个新的学习率调度参数，从而实现更强保证。
量子光学：与Mario Krenn合作，解决了多个关于单色量子图的猜想，对应高维GHZ量子态的构造。

成本奇迹：最便宜只需5美元，最贵不过400美元

根据DeepMind团队的对比分析，在大多数问题上，基础Agent和加了AlphaProof的版本表现几乎相同。但Agent D（完整版）的优势体现在最困难的问题（如#125和#138）上，能以2到5倍的成本优势完成证明。具体成本：最便宜的一道题（#741(ii)）中位成本仅5-7美元，最贵的（#152）也不过200-400美元。当然前提是用对了模型——单独运行AlphaProof或使用较小模型（如Gemini 3.0 Flash），9道题一道都解不出来。

数学奇点火花：人类角色从推导转向审查

通用推理模型已在其他领域直接输出证明，甚至推翻了Erdős 80年单位距离猜想。菲尔兹奖得主Gowers将未解问题扔给GPT-5.5 Pro，两小时拿到博士论文级成果，全程数学贡献为零。AlphaProof Nexus的验证机制让每一步推理都可被Lean编译器检查，任何逻辑断裂都会导致证明被拒绝。即使智能体无法完全证明目标定理，它生成的证明尝试也能加深人类对问题的理解——因为草稿是形式化的，专家可以直接聚焦未解决的子目标，无需重新验证整个论证链。人类数学家的角色，正从“亲手推导”转向“提出问题、审查方向、提炼洞见”。

谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

进化算法+LLM+Lean：AI证明的“三驾马车”

56年悬案告破：Erdős问题全面突破

横扫数学前沿：代数几何、凸优化等多领域开花

成本奇迹：最便宜只需5美元，最贵不过400美元

数学奇点火花：人类角色从推导转向审查

链接失效反馈