Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想
4%通过率击碎全自动办公美梦
SaaS-Bench的出现如同一面照妖镜,专门用于评估AI代理在复杂SaaS系统中的实际任务执行能力。测试结果显示,被寄予厚望的Claude Computer Use模块在完成端到端的企业级SaaS操作时,通过率竟然不到4%。这一数据彻底撕碎了“只需给AI一个自然语言指令,它就能自动完成所有办公流程”的幻想。即便是最新版的Opus 4.7对比4.6版本在计算机使用能力上有了天壤之别,但在SaaS-Bench的严苛标准下,依然难以获得实质性突破。

从截图推理到行为模拟:闭环漏洞在哪?
Computer Use的技术机制看似精密——通过环境感知(截图分析)→动态决策(AI推理)→行为模拟(模拟操作)构成闭环自动化。然而SaaS-Bench的失败恰恰暴露了这个闭环的关键断裂点:当AI面对模糊界面元素、弹窗意外中断、多步跨平台数据交互时,截图分析得到的静态信息无法支撑可靠的动态决策。AI在执行“从CRM导出数据并填入财务系统”这类需要维护状态的多步任务时,往往在第二步就迷失方向,更遑论处理非标准化UI布局和验证码等反爬机制。
自动化UI测试可堪一用,但全自动办公仍属奢望
在实际部署的反馈中,Computer Use并非一无是处。有用户已经在SaaS项目中应用了几个月,发现最有效的用例集中在两个方向:自动化UI测试(无需Selenium即可模拟用户点击路径)和从网络仪表板提取数据(定期抓取报表数值)。但这些应用本质上是“简化重复操作”而非“替代人类办公”——它们不需要复杂的上下文推理,只需稳定的模拟点击和读取。一旦遇到需要理解业务逻辑、监控多窗口状态、处理异常弹出框的办公场景,4%的通过率就是最直接的否定答案。
爆火概念背后的技术鸿沟
SaaS-Bench的结果引发了行业的恐慌性讨论。背后的原因在于,包括Claude Cowork在内的AI办公工具集,此前通过演示视频给市场灌输了“一句话搞定一个部门工作”的预期。但实际基准测试表明,从实验室Demo到生产级SaaS操作系统,中间横亘着巨大的技术鸿沟:界面元素识别准确率、错误恢复机制、跨应用会话一致性、自然语言指令歧义消解等核心能力都远未成熟。4%的通过率不是终点,而是一个清醒的警示——在全自动办公的宏大叙事背后,AI仍然只是缺乏“常识”和“容错能力”的脆弱工具。