大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

人类5分钟解谜,AI却集体得零分

ARC-AGI-2的发布如同一记重锤——Keras之父François Chollet宣布,在最新一版“AI智商大考”中,GPT-4.5、Claude 3.7 Sonnet、Gemini 2等基础大模型全部得0分。即使是加了思维链推理的Claude Thinking、R1、o3-mini,得分也仅4%。更令人震惊的是,去年在ARC-AGI-1上拿下76%的OpenAI o3-low,在新测试中直接跌至4%。而每项任务,至少有两名人类参与者能在两次尝试内轻松解决,平均耗时仅5分钟。ARC-AGI-2的设计靶心明确:考验AI的流体智力——即适应新情况、灵活推理的能力,而非依赖预训练数据的记忆。结果说明,即使大模型在博士级考试中刷爆分数,面对这种“对人类容易、对AI困难”的差距,依然束手无策。

大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

能解奥数题却算不对加减法:大模型的“伪推理”原形毕露

IBM院士Francesca Rossi一针见血地指出,当前大模型存在一种荒谬的不一致性:“有些AI模型已经能解决奥林匹克数学竞赛金牌水平的复杂难题,但同时在任何小学生都能完成的简单算术上出错。”这正是深度学习方法的核心局限:神经网络擅长统计模式识别,却并不真正理解概念的含义。在ARC-AGI-2中,暴露了三大具体短板——符号解释、组合推理和上下文规则应用。例如,模型能完成镜像、对称变换等任务,但无法理解图形中符号本身的语义;遇到需要同时运用多个规则或适应不同语境的任务时,立刻崩溃。这验证了Keras之父François Chollet的判断:AI系统可以在特定领域(如围棋、图像识别)超越人类,但这些只是狭隘的专门能力,离真正的通用智能还有本质鸿沟。

不再迷信“越大越好”:混合推理成为AGI新路径

越来越多的AI研究人员开始质疑“规模扩展是万能钥匙”的信仰。一项针对AI专家的最新调查显示,大多数人认为仅靠深度学习无法实现AGI,AI必须融合结构化推理和对因果关系的深入理解。IBM正在推进名为《思考,快与慢》的项目,灵感源自诺贝尔奖得主Daniel Kahneman的人类认知模型,核心是将快速直觉的“系统1”与缓慢审慎的“系统2”相结合。具体做法是:让大语言模型生成候选答案,然后由符号AI组件进行逻辑验证和纠正。这种混合方法有望解决AI“看似自信却频繁出错”的幻觉问题,提升可靠性和可解释性。Rossi强调:“人类并非只依赖本能,我们还会进行有意识的推理。AI同样需要这种平衡。”

ARC-AGI的终极拷问:AGI不是一个终点,而是一场路径革命

ARC Prize竞赛的初衷,正是为了激励研究人员跳出“更大模型、更多数据”的舒适区。2019年的ARC-AGI-1成功推动了从“纯记忆”向“测试时推理”的进化,但ARC-AGI-2的难度再加码,将计算资源翻倍,专门针对当前AI系统在符号解释、组合推理和上下文规则应用上的死穴。竞赛要求团队得分超过85%才能解锁高达70万美元的大奖——目前还没有任何系统接近这一目标。Rossi对AGI这个术语保持谨慎:“如果AGI意味着取代人类,那我们认为AI应当增强而非取代人类智能。”ARC奖的创始人则明确表示:AGI不是某天突然实现的东西,而是不断缩小“人机差距”的过程。只要基准测试继续暴露AI在基础推理上的无能,就说明“刷爆所有考试”的大模型,依然离真正的智能很远。