谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
进化算法+LLM+Lean:AI证明的“三驾马车”
AlphaProof Nexus的核心是一个多智能体协作系统:多个证明子智能体并行工作,每个与Gemini 3.1 Pro进行多轮对话,通过搜索替换工具修改Lean代码。编译器实时反馈错误信息,子智能体根据反馈迭代修正。系统还引入进化算法——共享一个“种群数据库”,每个证明草稿由LLM评审员用Elo评分系统打分,高分草稿被优先采样、变异、进化。整个流程形成闭环:AI提出证明草稿→Lean编译器验证→失败则反馈错误→AI修正→再验证→循环往复,直到证明完全通过或耗尽算力预算。这套“进化算法 + AlphaProof + Gemini 3.1 Pro”的组合,成为DeepMind扫荡Erdős问题的主力武器。
56年悬案告破:Erdős问题全面突破
在9道Erdős开放问题中,最古老的一道悬置了整整56年。以编号#125为例,问题涉及是否存在一个无限集A,满足“任意三个不同元素a<b,c,都不存在a整除b+c”,同时密度达到N^(1/2)量级。AlphaProof先搞定6个子目标中的3个,随后子智能体将剩余“硬骨头”分解为更小引理,再次调用AlphaProof——全部攻克。证明核心是一个归纳稀疏化论证,巧妙利用3^m和4^k的丢番图逼近性质(log4/log3是无理数),通过反复找到两个基数几乎对齐的尺度,让密度以0.99的比率逐步衰减到零。另一道关于van der Waerden数W(k+1)-W(k)是否趋于无穷的问题,AI给出极其优雅的证明:W(k+1) ≥ W(k) + k,核心思路是贪心染色扩展。

横扫数学前沿:代数几何、凸优化等多领域开花
除了Erdős问题,AlphaProof Nexus在多个数学方向取得突破:
- OEIS猜想:系统自动形式化了492个开放猜想,证明了其中44个。为防止形式化错误,系统要求先证明“测试引理”——验证序列前几项与形式化定义一致——才能尝试目标猜想。
- 代数几何:解决了一个悬置约15年的开放问题——证明了余维数3、类型2的纯O-序列的对数凹性,此前被认为是该领域最后一个主要未解情况。
- 凸优化:解决了一个关于锚定梯度下降-上升算法(Anchored GDA)精确收敛速率的开放问题。AI不仅验证了固定算法,还在证明过程中自主搜索并发现了一个新的学习率调度参数,从而实现更强保证。
- 量子光学:与Mario Krenn合作,解决了多个关于单色量子图的猜想,对应高维GHZ量子态的构造。
成本奇迹:最便宜只需5美元,最贵不过400美元
根据DeepMind团队的对比分析,在大多数问题上,基础Agent和加了AlphaProof的版本表现几乎相同。但Agent D(完整版)的优势体现在最困难的问题(如#125和#138)上,能以2到5倍的成本优势完成证明。具体成本:最便宜的一道题(#741(ii))中位成本仅5-7美元,最贵的(#152)也不过200-400美元。当然前提是用对了模型——单独运行AlphaProof或使用较小模型(如Gemini 3.0 Flash),9道题一道都解不出来。
数学奇点火花:人类角色从推导转向审查
通用推理模型已在其他领域直接输出证明,甚至推翻了Erdős 80年单位距离猜想。菲尔兹奖得主Gowers将未解问题扔给GPT-5.5 Pro,两小时拿到博士论文级成果,全程数学贡献为零。AlphaProof Nexus的验证机制让每一步推理都可被Lean编译器检查,任何逻辑断裂都会导致证明被拒绝。即使智能体无法完全证明目标定理,它生成的证明尝试也能加深人类对问题的理解——因为草稿是形式化的,专家可以直接聚焦未解决的子目标,无需重新验证整个论证链。人类数学家的角色,正从“亲手推导”转向“提出问题、审查方向、提炼洞见”。