南大团队直击大模型高分神话:人类90分,最强模型仅49分
背景:大模型的智能边界持续被探索
近年来,随着大型语言模型(LLMs)的迅猛发展,其在多个任务中的表现接近甚至超越人类水平,引发广泛讨论。然而,在复杂逻辑推理、跨模态理解和非线性思维等方面,大模型是否真正具备类人能力,仍存争议。南京大学团队近日发布的一项评测结果,直接挑战了“大模型高分神话”,揭示了当前AI系统在某些关键认知任务中与人类智能的显著差距。
测评详情:人类专家得分超模型一倍以上
该评测聚焦于非线性思维和复杂逻辑推理任务,结果显示人类专家在测试中获得了90.7的非线性得分(传统准确率Acc为94.9),而当前业界最强的商业模型Gemini-3-Pro仅获得49.4分。此外,开源模型Qwen在相同测试中表现更弱,最高得分为39.1。这项数据表明,即便在顶尖模型之间,面对高度抽象、需要创造性思维的任务时,其表现仍远不及人类。

测试任务特点:强调认知复杂度与逻辑跳跃
此次测试任务设计注重逻辑跳跃、多维度推理与非线性关联,模拟了人类在解决现实问题时所需的综合判断能力。不同于传统准确率评测(Acc),该测试引入“非线性得分”机制,评估模型在面对模糊、不确定或需要跨步骤推理时的表现。此类任务包括隐喻理解、因果关系的非显性推导、多模态情境下的综合判断等,挑战模型的泛化与抽象能力。
影响:AI能力评估标准或将升级
南大团队的实测结果引发了对当前AI评测体系的反思。当前主流评估多依赖于传统准确率或单一模态任务,难以全面反映模型的“类人智能”水平。此次引入的非线性得分机制,或推动行业建立更加贴近人类认知能力的评估体系。此外,结果也揭示了AI在高阶推理和创造性思维方面仍有较大提升空间,为后续模型架构优化和训练策略提供新方向。
未来展望:人机协作仍是关键路径
尽管大模型在语言生成、知识问答等方面已表现出色,但在需要深度推理与创造性思维的任务中仍显不足。南大团队的测试进一步佐证了AI目前仍无法替代人类在复杂问题上的判断力。未来的发展趋势或将聚焦于提升模型的非线性推理能力,或推动人机协作系统,让AI辅助而非替代人类进行复杂决策。