Claude Opus 4.7在真实办公软件组成的SaaS-Bench测试中,端到端完全通过率仅3.8%,这彻底戳破了Computer-Use Agent全自动办公的幻象。
一个名为SaaS-Bench的基准测试揭示了Claude Computer Use在真实SaaS任务中的惨淡表现——通过率不足4%,所谓“全自动办公”更像是精心包装的技术幻想。