大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

1 个月前

AI资讯

68 阅读

大模型][ARC-AGI-2 AI智商流体智力

人类5分钟解谜，AI却集体得零分

ARC-AGI-2的发布如同一记重锤——Keras之父François Chollet宣布，在最新一版“AI智商大考”中，GPT-4.5、Claude 3.7 Sonnet、Gemini 2等基础大模型全部得0分。即使是加了思维链推理的Claude Thinking、R1、o3-mini，得分也仅4%。更令人震惊的是，去年在ARC-AGI-1上拿下76%的OpenAI o3-low，在新测试中直接跌至4%。而每项任务，至少有两名人类参与者能在两次尝试内轻松解决，平均耗时仅5分钟。ARC-AGI-2的设计靶心明确：考验AI的流体智力——即适应新情况、灵活推理的能力，而非依赖预训练数据的记忆。结果说明，即使大模型在博士级考试中刷爆分数，面对这种“对人类容易、对AI困难”的差距，依然束手无策。

大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

能解奥数题却算不对加减法：大模型的“伪推理”原形毕露

IBM院士Francesca Rossi一针见血地指出，当前大模型存在一种荒谬的不一致性：“有些AI模型已经能解决奥林匹克数学竞赛金牌水平的复杂难题，但同时在任何小学生都能完成的简单算术上出错。”这正是深度学习方法的核心局限：神经网络擅长统计模式识别，却并不真正理解概念的含义。在ARC-AGI-2中，暴露了三大具体短板——符号解释、组合推理和上下文规则应用。例如，模型能完成镜像、对称变换等任务，但无法理解图形中符号本身的语义；遇到需要同时运用多个规则或适应不同语境的任务时，立刻崩溃。这验证了Keras之父François Chollet的判断：AI系统可以在特定领域（如围棋、图像识别）超越人类，但这些只是狭隘的专门能力，离真正的通用智能还有本质鸿沟。

不再迷信“越大越好”：混合推理成为AGI新路径

越来越多的AI研究人员开始质疑“规模扩展是万能钥匙”的信仰。一项针对AI专家的最新调查显示，大多数人认为仅靠深度学习无法实现AGI，AI必须融合结构化推理和对因果关系的深入理解。IBM正在推进名为《思考，快与慢》的项目，灵感源自诺贝尔奖得主Daniel Kahneman的人类认知模型，核心是将快速直觉的“系统1”与缓慢审慎的“系统2”相结合。具体做法是：让大语言模型生成候选答案，然后由符号AI组件进行逻辑验证和纠正。这种混合方法有望解决AI“看似自信却频繁出错”的幻觉问题，提升可靠性和可解释性。Rossi强调：“人类并非只依赖本能，我们还会进行有意识的推理。AI同样需要这种平衡。”

ARC-AGI的终极拷问：AGI不是一个终点，而是一场路径革命

ARC Prize竞赛的初衷，正是为了激励研究人员跳出“更大模型、更多数据”的舒适区。2019年的ARC-AGI-1成功推动了从“纯记忆”向“测试时推理”的进化，但ARC-AGI-2的难度再加码，将计算资源翻倍，专门针对当前AI系统在符号解释、组合推理和上下文规则应用上的死穴。竞赛要求团队得分超过85%才能解锁高达70万美元的大奖——目前还没有任何系统接近这一目标。Rossi对AGI这个术语保持谨慎：“如果AGI意味着取代人类，那我们认为AI应当增强而非取代人类智能。”ARC奖的创始人则明确表示：AGI不是某天突然实现的东西，而是不断缩小“人机差距”的过程。只要基准测试继续暴露AI在基础推理上的无能，就说明“刷爆所有考试”的大模型，依然离真正的智能很远。

大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

人类5分钟解谜，AI却集体得零分

能解奥数题却算不对加减法：大模型的“伪推理”原形毕露

不再迷信“越大越好”：混合推理成为AGI新路径

ARC-AGI的终极拷问：AGI不是一个终点，而是一场路径革命

链接失效反馈