陶哲轩First Proof二期结果出炉,最低8美元1题,AI烧出7道论文级解法

7道论文级解法诞生,最便宜解法仅8美元

由菲尔兹奖得主陶哲轩发起的First Proof项目第二批评测结果正式出炉。本次测试大幅提高了标准,但AI系统的表现远超预期——共有7道难题被AI以“论文级”的完整证明彻底攻克。最令人惊叹的是,其中一道题的解法成本低至8美元,展现了AI在数学推理领域惊人的性价比。此前,陶哲轩曾在2023年预测“到2026年AI将成为数学研究中值得信赖的合著者”,如今这一预言正在迅速变为现实。

苏黎世联邦理工团队拿下最强解法,花费3186美元

在众多参赛团队中,解题能力最强的苏黎世联邦理工(ETH Zurich)团队脱颖而出,其系统总费用达到3186美元。尽管成本较高,但该团队贡献的解法在复杂度和严谨性上均属顶尖,所有步骤均通过Lean形式化验证。陶哲轩在博客中特别指出,这些AI生成的证明“包含大量冗余或难以解释的步骤”,但逻辑上无懈可击,足以作为数学论文的组成部分公开发表。

陶哲轩First Proof二期结果出炉,最低8美元1题,AI烧出7道论文级解法

AI解题过程完全正确,陶哲轩亲自验证

陶哲轩在最新的访谈中明确表示:“AI的解题过程是完全正确的。”他曾亲自将一道数学题输入ChatGPT,离开十五分钟后返回,发现模型已写出一份完整的证明。随后他使用名为Harmonic的工具将推理过程形式化,结果一切无懈可击。这一实验印证了AI在数学领域的潜力——它不仅能生成“外表光鲜”的证明,还能经受住最严格的逻辑检验。本次评测中,独立AI系统共攻克了6道世界级数学难题,与人类团队协同完成的第7道题则来自陶哲轩本人的指导。

从ChatGPT到Lean:AI如何成为数学合著者

陶哲轩对AI的态度经历了从“指导一个平庸的研究生”到“AI现在可以正式上场了”的转变。他在2026年2月UCLA的会议上坦言,AI“节省的时间已经超过它浪费的时间”。然而,他依然保持清醒:AI的证明往往缺乏人类数学家所依赖的“气味”——那种直觉性的理解与洞察。在最新的论文《人工智能时代的数学方法与人类思维》中,陶哲轩强调,AI擅长广度,人类擅长深度,二者高度互补。他预测,人机混合模式将在数学研究领域占据主导地位,且持续时间会远超多数人的预期。

人机混合时代:AI节省的时间已超过浪费的时间

尽管AI在First Proof二期中的表现令人振奋,但陶哲轩并未因此成为技术乐观主义的布道者。他在论文中深入探讨了AI的社会成本:数据中心的能源消耗、工作岗位消失、知识产权争议以及“数字鸿沟”。他明确拒绝了三种极端立场——纯粹形式主义、人类沙文主义和AI至上主义,主张在哲学中间地带寻求人与AI的互补共存。正如他所说,“AI让我的论文更丰富了,但核心突破仍然要靠纸笔完成。”这场烧出7道论文级解法的实验,或许正是数学新时代的序章。