“Agent的最后一场考试”来了：最强模型得分率仅8.6%，Claude Code直接挂零

1 个月前

AI资讯

140 阅读

AI Agent 企业级AI 模型评测 ITBench-AA

企业考场首秀：最强AI不到50分，严苛规则下集体翻车

过去一年，大模型在知识问答、数学推理、代码生成等标准化测试中屡破纪录，但5月29日Artificial Analysis联合IBM软件创新实验室发布的ITBench-AA基准，却让这些“学霸”们集体现了原形。这一业内首个面向企业级AI Agent真实工作能力的测评体系，不再让模型单纯答题，而是将其直接扔进模拟的企业IT运维环境中——网站宕机、数据库异常、安全配置漏洞、云成本失控——要求Agent像真正的工程师一样排查故障、定位根因并提出解决方案。

评测结果令人咋舌：当前最先进的一批模型，综合得分无一突破50%。其中Claude Opus 4.7以47%领跑，GPT-5.5得46%，Qwen3.7 Max得42%。更残酷的是评分标准——ITBench-AA采用“完全召回率下的平均精度”，要求Agent必须找出所有故障根因，漏掉一个关键原因整题计0分。这恰恰映射了金融、医疗、航空等领域的真实法则：“差不多”等于“完全错误”。评测还揭示了一种典型的失败模式——“过度诊断”：Agent越深入调查，越容易把临时性报错或无关异常误判为根源，在困难场景中尤其突出。

软件“马拉松”：Claude Opus 4.6仅38%，技术债越滚越深

如果说ITBench-AA考的是“单次维修”，那么7月发布的EvoClaw基准则是一场考验长期开发能力的“马拉松”。该基准由研究人员提出，首次将时间维度引入AI编程评测，要求AI在同一代码库上按序完成连续的功能单元——每个里程碑的产出要作为下一步的起点。这颠覆了传统评测中“任务独立、互不干扰”的简化假设。

“Agent的最后一场考试”来了：最强模型得分率仅8.6%，Claude Code直接挂零

结果上演了更刺眼的断崖下跌：在SWE-bench等独立评测中得分80%+的顶尖模型，到了EvoClaw里全部腰斩。综合得分最高的Claude Opus 4.6仅获得38.03%，GPT-5.3紧随其后。研究团队指出，AI在长期演进中极易陷入“滚雪球式技术债”——它能不断添加新功能，却无法控制回归错误的累积。评测还发现，不同模型的推理开销天差地别：Gemini 3.1 Pro平均每个任务需要83轮交互，而GPT-5.5只需31轮，但更多操作不意味着更高成功率。信息过载、线索误判才是致命短板。

真实SaaS操作：最强模型通过率8.6%，Claude Code直接吞蛋

更贴近C端和真实业务场景的SaaS-Bench测试，则把Agent直接放进真实的SaaS系统里操作——结果更惨：最强模型的端到端完整通过率仅有8.6%。这意味着，即便AI能流畅写出代码、答对高难度题目，放到企业级SaaS系统（如CRM、ERP、云控制台）中执行完整业务流程时，几乎全军覆没。更令人震惊的是，被寄予厚望的代码Agent产品Claude Code，在本次测试中直接挂零——没有任何一个任务能在无需人类干预的情况下完整跑通。

同期，Humanity's Last Exam（HLE）——被视为“AI最后一场考试”的艰难基准——也传来类似信号：在需要多步推理和工具调用的Agent评测中，最强模型初始得分仅8.6%，直到经过强化学习迭代后才跃升至26.9%。OpenAI推出的通用Agent产品ChatGPT Agent虽将HLE成绩拉高到41.6%，但SaaS-Bench的惨淡数据说明：越是贴近真实业务流程，依赖网络、登录、数据验证等环节的“脆弱性”就越放大，任何一个步骤出错都导致全盘溃败。

天价推理费与“开源逆袭”：AI Agent破局的三条出路

面对集体“不及格”的考卷，行业也在反思问题根源。一方面，真实企业环境每天产生海量日志、监控告警，AI缺乏人类工程师的“经验直觉”来快速过滤无效信息，反而因“想太多”陷入过度诊断。另一方面，高昂的推理成本加剧了推广阻力：ITBench-AA评测中，GPT-5.5单任务成本高达5.38美元，而得分仅低9个百分点的开源模型Gemma4 31B，单任务成本仅为0.14美元，性价比优势高达38倍。GLM-5.1也以40%的得分成为开源阵营翘楚，进一步拉近了与闭源模型的差距。

出路也逐渐清晰：一是优化可观测性工具——ITBench原论文发现，当Agent能访问链路追踪数据时，GPT-4o的诊断成功率从9.5%提升到13.8%，证明更好的数据接口能显著提升表现；二是强化学习（RL）的正向作用——从HLE 8.6%到41.6%的提升，验证了RL在长链任务中的泛化潜力，能让Agent从“工具调用器”进化为“自主学习体”；三是垂类场景的深度适配——金沙江创投投资的Head AI等产品，通过连接企业内部知识库和私有数据，将Agent的准确率大幅拉升，证明“通用泛化”在短期内不如“精准落地”。当大模型刷完了所有容易量化的考试，下一场真正的测验，才刚刚开始。

“Agent的最后一场考试”来了：最强模型得分率仅8.6%，Claude Code直接挂零

企业考场首秀：最强AI不到50分，严苛规则下集体翻车

软件“马拉松”：Claude Opus 4.6仅38%，技术债越滚越深

真实SaaS操作：最强模型通过率8.6%，Claude Code直接吞蛋

天价推理费与“开源逆袭”：AI Agent破局的三条出路

链接失效反馈