全网爆火的 Claude Fable 5 神级案例,可能是纯手搓

跑分断崖领先:从63分跳到91分,人类工程师被AI反超

Every团队的Senior Engineer benchmark成为Fable 5封神的第一块垫脚石。此前Opus 4.8的最高分是63,GPT-5.5是62,而Fable 5直接拿到91——这不是渐进优化,是跨维碾压。更恐怖的对比在SWE-Bench Pro:Fable 5拿下80.3%,比Opus 4.8的69.2%和GPT 5.5的58.6%高出整整一档;在Terminal-Bench 2.1上88.0%的分数甚至压过了OpenAI专门为终端优化的Codex CLI(83.4%)。而DeepSeek V4-Pro Max的所有指标都被Fable 5以“断崖式”领先——SWE Pro上Fable是80.3%对55.4%,HLE with tools是64.5%对48.2%。换句话说,只要涉及编码、终端操作、长任务执行,Fable 5就是当前地球上的最强单体模型。

实机测试:不是教它写代码,是把它当资深工程师开会

追日Gucci的实测演示了Fable 5最核心的使用哲学:给大目标,而不是给一堆小步骤。他直接丢给模型一个自己工作流中卡了很久的烂摊子——AI视频剪辑里retake拼接总是接不干净。他没有手把手教怎么改,而是让Fable 5先以“资深工程师”身份问问题,把历史遗留的坏接点case、项目环境、禁区全部讲清楚,然后给出四个要素的最终目标:终点(五个坏接点在preview里消失,且修在机制层)、验收标准(原有pytest全绿+坏点写成测试案例+人耳A/B验收)、禁区(不准手改EDL盖症状、不准弄坏原来正常的功能)、停损(要动核心假设时先停)。结果模型不仅修好了五个坏接点,还用130多个已有案例做回归验证。这种“同事式协作”远比让它从零做一个网页更能体现真实的工程价值。Every团队也印证了这一点:他们把整个production bug backlog丢给Fable 5,离开几小时回来就看到全部清掉了;甚至用one-shot生成了可玩的3D游戏和2分钟动画短片。

安全红线与“Token刺客”:能造药也能当黑客,但钱包先扛不住

Fable 5的恐怖不止在编码——它在网络安全和生物科学上的能力让Anthropic自己都紧张。ExploitBench上它拿到78.0%,远高于Opus 4.8的40.0%和GPT-5.5的34.0%;BioMysteryBench硬核任务46.1%,药物设计加速约10倍。如此强大的能力迫使Anthropic部署了一套新的安全分类器:当用户请求涉及网络攻击、生物武器、化学合成或模型蒸馏时,Fable 5会自动回退到Opus 4.8处理,并告知用户模型已切换。同时,它的定价也堪称“Token刺客”:API每百万输入10美元、输出50美元,大约是Opus的两倍,而且因为每次任务经常吃掉50万到100万个token,实际费用高得惊人。目前Fable 5在Claude Pro/Max/Team计划里免费包含到6月22日,之后只能走API付费,单价按usage credits走。Dan Shipper将其比喻为“曲速引擎”——几小时能穿越银河系,但不适合在城里散步,除非公司报销。

从杀戮尖塔到药物设计:神级案例的另一种打开方式

Anthropic在《杀戮尖塔》游戏里测试了Fable 5的长期记忆能力:给定持久化文件后,它进入最终章节的频率是Opus 4.8的三倍。而在生命科学领域,内部分子生物学专家用Mythos 5(Fable 5的安全受控版本)做蛋白质设计,部分药物设计流程加速整整10倍,盲测中研究者偏好比例约80%。视觉能力同样变态:Fable 5能从截图重建网页应用、从科学图表里提取精确数字,Blueprint-Bench 2上38.6%的成绩远超Opus 4.8的14.5%。这些案例共同指向一个事实:Fable 5不是“更好的代码补全器”,而是一个能自主理解复杂目标、跨越多个领域、承担长期任务的新物种。只是,一旦你习惯了它的速度,就很难再回到从前——而且你的账户余额也会飞速下滑。