Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

1 个月前

AI资讯

24 阅读

claude SaaS-Bench Computer-Use 全自动办公

4%通过率击碎全自动办公美梦

SaaS-Bench的出现如同一面照妖镜，专门用于评估AI代理在复杂SaaS系统中的实际任务执行能力。测试结果显示，被寄予厚望的Claude Computer Use模块在完成端到端的企业级SaaS操作时，通过率竟然不到4%。这一数据彻底撕碎了“只需给AI一个自然语言指令，它就能自动完成所有办公流程”的幻想。即便是最新版的Opus 4.7对比4.6版本在计算机使用能力上有了天壤之别，但在SaaS-Bench的严苛标准下，依然难以获得实质性突破。

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

从截图推理到行为模拟：闭环漏洞在哪？

Computer Use的技术机制看似精密——通过环境感知（截图分析）→动态决策（AI推理）→行为模拟（模拟操作）构成闭环自动化。然而SaaS-Bench的失败恰恰暴露了这个闭环的关键断裂点：当AI面对模糊界面元素、弹窗意外中断、多步跨平台数据交互时，截图分析得到的静态信息无法支撑可靠的动态决策。AI在执行“从CRM导出数据并填入财务系统”这类需要维护状态的多步任务时，往往在第二步就迷失方向，更遑论处理非标准化UI布局和验证码等反爬机制。

自动化UI测试可堪一用，但全自动办公仍属奢望

在实际部署的反馈中，Computer Use并非一无是处。有用户已经在SaaS项目中应用了几个月，发现最有效的用例集中在两个方向：自动化UI测试（无需Selenium即可模拟用户点击路径）和从网络仪表板提取数据（定期抓取报表数值）。但这些应用本质上是“简化重复操作”而非“替代人类办公”——它们不需要复杂的上下文推理，只需稳定的模拟点击和读取。一旦遇到需要理解业务逻辑、监控多窗口状态、处理异常弹出框的办公场景，4%的通过率就是最直接的否定答案。

爆火概念背后的技术鸿沟

SaaS-Bench的结果引发了行业的恐慌性讨论。背后的原因在于，包括Claude Cowork在内的AI办公工具集，此前通过演示视频给市场灌输了“一句话搞定一个部门工作”的预期。但实际基准测试表明，从实验室Demo到生产级SaaS操作系统，中间横亘着巨大的技术鸿沟：界面元素识别准确率、错误恢复机制、跨应用会话一致性、自然语言指令歧义消解等核心能力都远未成熟。4%的通过率不是终点，而是一个清醒的警示——在全自动办公的宏大叙事背后，AI仍然只是缺乏“常识”和“容错能力”的脆弱工具。

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

4%通过率击碎全自动办公美梦

从截图推理到行为模拟：闭环漏洞在哪？

自动化UI测试可堪一用，但全自动办公仍属奢望

爆火概念背后的技术鸿沟

链接失效反馈