Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想

1 个月前

AI资讯

77 阅读

AI Agent 办公自动化评测

真实办公考卷砸下来，最强模型仅通过4个任务

UniPat AI最新推出的SaaS-Bench评测，直接把23个开源SaaS系统搬进Docker，保留完整的前后端逻辑、数据库状态和业务约束。任务覆盖软件研发、业务财务、团队协作、农业供应链、独立媒体六个专业领域，106个任务中93.4%跨越至少两个应用，半数任务需要三个应用协作，97.3%的文本任务操作步数超过100步，最长轨迹达300+步。结果让业界大跌眼镜：Claude Opus 4.7检查点分数43.9%，但端到端完全通过分数只有3.8%——106个任务只完整通过了4个。Kimi K2.5和Gemini 3.1 Pro的完全通过分数为零，一个任务都没走完。

Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想

跨应用+长轨迹：一个3%的权重失误导致30%分数损失

评测揭示了一个典型失败案例：Agent需要创建一个公司客户“Arcturus Digital”，但系统同时填了联系人姓名和公司名，触发了个人客户逻辑，实际创建的是个人客户Elena Vasquez。此后10张发票、付款记录、账户对账全部挂在错误实体下。核心检查点权重仅3%，却导致下游30%的权重损失。跨应用数从1增加到4时，平均分从53%降至20%；检查点个数从≤6到≥18时，平均分从65%降至27%。当前Agent在长程、跨应用、细粒度验证的真实工作流面前，几乎毫无招架之力。

路径依赖让Agent执行变成赌博：同一任务三次跑分从0到0.68

在SaaS-Bench的多次运行测试中，模型表现极不稳定。Claude Sonnet 4.6在同一任务的三次独立运行中，分数范围从0.00到0.68。这不是环境随机性——每次运行初始状态完全相同，而是路径依赖：模型在某个决策点的微小差异，导致后续轨迹完全分叉。比如Step 210提交时，Agent汇报“账单日期2026-03-20，已修复”，但页面上实际日期仍是03-19。四种结构性失败模式——越往后越做不对、一步错步步错、做完不检查、每次分数不一样——指向同一个底层事实：当前Agent缺少对持久状态的有效推理、操作后的闭环验证、以及从错误中恢复的能力。

范式之困：面向人类的SaaS需要为Agent重做一遍

这些失败不是靠模型变大或加几个工程模块就能解决的。SaaS-Bench把当前Agent范式的天花板摊开了：在长程任务中，模型无法像人一样“心里有数”，缺少对全局状态的持续感知。UniPat AI认为，今天的SaaS是给人设计的——菜单、按钮、表单都在服务人类的眼睛和手指，当Agent成为主要用户，这些界面就变成了累赘。或许SaaS-Bench揭示的不只是Agent的短板，更是当前软件形态的保质期——面向人类的SaaS可能都要为Agent重做一遍。

Claude不到4%，全军覆没，一场大考撕碎Agent「全自动办公」幻想

真实办公考卷砸下来，最强模型仅通过4个任务

跨应用+长轨迹：一个3%的权重失误导致30%分数损失

路径依赖让Agent执行变成赌博：同一任务三次跑分从0到0.68

范式之困：面向人类的SaaS需要为Agent重做一遍

链接失效反馈