南大团队直击大模型高分神话：人类90分，最强模型仅49分

1 个月前

AI资讯

72 阅读

逻辑推理 [大模型评测南京大学智能边界]

背景：大模型的智能边界持续被探索

近年来，随着大型语言模型（LLMs）的迅猛发展，其在多个任务中的表现接近甚至超越人类水平，引发广泛讨论。然而，在复杂逻辑推理、跨模态理解和非线性思维等方面，大模型是否真正具备类人能力，仍存争议。南京大学团队近日发布的一项评测结果，直接挑战了“大模型高分神话”，揭示了当前AI系统在某些关键认知任务中与人类智能的显著差距。

测评详情：人类专家得分超模型一倍以上

该评测聚焦于非线性思维和复杂逻辑推理任务，结果显示人类专家在测试中获得了90.7的非线性得分（传统准确率Acc为94.9），而当前业界最强的商业模型Gemini-3-Pro仅获得49.4分。此外，开源模型Qwen在相同测试中表现更弱，最高得分为39.1。这项数据表明，即便在顶尖模型之间，面对高度抽象、需要创造性思维的任务时，其表现仍远不及人类。

南大团队直击大模型高分神话：人类90分，最强模型仅49分

测试任务特点：强调认知复杂度与逻辑跳跃

此次测试任务设计注重逻辑跳跃、多维度推理与非线性关联，模拟了人类在解决现实问题时所需的综合判断能力。不同于传统准确率评测（Acc），该测试引入“非线性得分”机制，评估模型在面对模糊、不确定或需要跨步骤推理时的表现。此类任务包括隐喻理解、因果关系的非显性推导、多模态情境下的综合判断等，挑战模型的泛化与抽象能力。

影响：AI能力评估标准或将升级

南大团队的实测结果引发了对当前AI评测体系的反思。当前主流评估多依赖于传统准确率或单一模态任务，难以全面反映模型的“类人智能”水平。此次引入的非线性得分机制，或推动行业建立更加贴近人类认知能力的评估体系。此外，结果也揭示了AI在高阶推理和创造性思维方面仍有较大提升空间，为后续模型架构优化和训练策略提供新方向。

未来展望：人机协作仍是关键路径

尽管大模型在语言生成、知识问答等方面已表现出色，但在需要深度推理与创造性思维的任务中仍显不足。南大团队的测试进一步佐证了AI目前仍无法替代人类在复杂问题上的判断力。未来的发展趋势或将聚焦于提升模型的非线性推理能力，或推动人机协作系统，让AI辅助而非替代人类进行复杂决策。

南大团队直击大模型高分神话：人类90分，最强模型仅49分

背景：大模型的智能边界持续被探索

测评详情：人类专家得分超模型一倍以上

测试任务特点：强调认知复杂度与逻辑跳跃

影响：AI能力评估标准或将升级

未来展望：人机协作仍是关键路径

链接失效反馈