“Agent的最后一场考试”来了:最强模型得分率仅8.6%,Claude Code直接挂零
企业考场首秀:最强AI不到50分,严苛规则下集体翻车
过去一年,大模型在知识问答、数学推理、代码生成等标准化测试中屡破纪录,但5月29日Artificial Analysis联合IBM软件创新实验室发布的ITBench-AA基准,却让这些“学霸”们集体现了原形。这一业内首个面向企业级AI Agent真实工作能力的测评体系,不再让模型单纯答题,而是将其直接扔进模拟的企业IT运维环境中——网站宕机、数据库异常、安全配置漏洞、云成本失控——要求Agent像真正的工程师一样排查故障、定位根因并提出解决方案。
评测结果令人咋舌:当前最先进的一批模型,综合得分无一突破50%。其中Claude Opus 4.7以47%领跑,GPT-5.5得46%,Qwen3.7 Max得42%。更残酷的是评分标准——ITBench-AA采用“完全召回率下的平均精度”,要求Agent必须找出所有故障根因,漏掉一个关键原因整题计0分。这恰恰映射了金融、医疗、航空等领域的真实法则:“差不多”等于“完全错误”。评测还揭示了一种典型的失败模式——“过度诊断”:Agent越深入调查,越容易把临时性报错或无关异常误判为根源,在困难场景中尤其突出。
软件“马拉松”:Claude Opus 4.6仅38%,技术债越滚越深
如果说ITBench-AA考的是“单次维修”,那么7月发布的EvoClaw基准则是一场考验长期开发能力的“马拉松”。该基准由研究人员提出,首次将时间维度引入AI编程评测,要求AI在同一代码库上按序完成连续的功能单元——每个里程碑的产出要作为下一步的起点。这颠覆了传统评测中“任务独立、互不干扰”的简化假设。

结果上演了更刺眼的断崖下跌:在SWE-bench等独立评测中得分80%+的顶尖模型,到了EvoClaw里全部腰斩。综合得分最高的Claude Opus 4.6仅获得38.03%,GPT-5.3紧随其后。研究团队指出,AI在长期演进中极易陷入“滚雪球式技术债”——它能不断添加新功能,却无法控制回归错误的累积。评测还发现,不同模型的推理开销天差地别:Gemini 3.1 Pro平均每个任务需要83轮交互,而GPT-5.5只需31轮,但更多操作不意味着更高成功率。信息过载、线索误判才是致命短板。
真实SaaS操作:最强模型通过率8.6%,Claude Code直接吞蛋
更贴近C端和真实业务场景的SaaS-Bench测试,则把Agent直接放进真实的SaaS系统里操作——结果更惨:最强模型的端到端完整通过率仅有8.6%。这意味着,即便AI能流畅写出代码、答对高难度题目,放到企业级SaaS系统(如CRM、ERP、云控制台)中执行完整业务流程时,几乎全军覆没。更令人震惊的是,被寄予厚望的代码Agent产品Claude Code,在本次测试中直接挂零——没有任何一个任务能在无需人类干预的情况下完整跑通。
同期,Humanity's Last Exam(HLE)——被视为“AI最后一场考试”的艰难基准——也传来类似信号:在需要多步推理和工具调用的Agent评测中,最强模型初始得分仅8.6%,直到经过强化学习迭代后才跃升至26.9%。OpenAI推出的通用Agent产品ChatGPT Agent虽将HLE成绩拉高到41.6%,但SaaS-Bench的惨淡数据说明:越是贴近真实业务流程,依赖网络、登录、数据验证等环节的“脆弱性”就越放大,任何一个步骤出错都导致全盘溃败。
天价推理费与“开源逆袭”:AI Agent破局的三条出路
面对集体“不及格”的考卷,行业也在反思问题根源。一方面,真实企业环境每天产生海量日志、监控告警,AI缺乏人类工程师的“经验直觉”来快速过滤无效信息,反而因“想太多”陷入过度诊断。另一方面,高昂的推理成本加剧了推广阻力:ITBench-AA评测中,GPT-5.5单任务成本高达5.38美元,而得分仅低9个百分点的开源模型Gemma4 31B,单任务成本仅为0.14美元,性价比优势高达38倍。GLM-5.1也以40%的得分成为开源阵营翘楚,进一步拉近了与闭源模型的差距。
出路也逐渐清晰:一是优化可观测性工具——ITBench原论文发现,当Agent能访问链路追踪数据时,GPT-4o的诊断成功率从9.5%提升到13.8%,证明更好的数据接口能显著提升表现;二是强化学习(RL)的正向作用——从HLE 8.6%到41.6%的提升,验证了RL在长链任务中的泛化潜力,能让Agent从“工具调用器”进化为“自主学习体”;三是垂类场景的深度适配——金沙江创投投资的Head AI等产品,通过连接企业内部知识库和私有数据,将Agent的准确率大幅拉升,证明“通用泛化”在短期内不如“精准落地”。当大模型刷完了所有容易量化的考试,下一场真正的测验,才刚刚开始。