全网爆火的 Claude Fable 5 神级案例，可能是纯手搓

1 个月前

AI资讯

44 阅读

[claude ai编程]5 Fable 跑分神级案例

跑分断崖领先：从63分跳到91分，人类工程师被AI反超

Every团队的Senior Engineer benchmark成为Fable 5封神的第一块垫脚石。此前Opus 4.8的最高分是63，GPT-5.5是62，而Fable 5直接拿到91——这不是渐进优化，是跨维碾压。更恐怖的对比在SWE-Bench Pro：Fable 5拿下80.3%，比Opus 4.8的69.2%和GPT 5.5的58.6%高出整整一档；在Terminal-Bench 2.1上88.0%的分数甚至压过了OpenAI专门为终端优化的Codex CLI（83.4%）。而DeepSeek V4-Pro Max的所有指标都被Fable 5以“断崖式”领先——SWE Pro上Fable是80.3%对55.4%，HLE with tools是64.5%对48.2%。换句话说，只要涉及编码、终端操作、长任务执行，Fable 5就是当前地球上的最强单体模型。

实机测试：不是教它写代码，是把它当资深工程师开会

追日Gucci的实测演示了Fable 5最核心的使用哲学：给大目标，而不是给一堆小步骤。他直接丢给模型一个自己工作流中卡了很久的烂摊子——AI视频剪辑里retake拼接总是接不干净。他没有手把手教怎么改，而是让Fable 5先以“资深工程师”身份问问题，把历史遗留的坏接点case、项目环境、禁区全部讲清楚，然后给出四个要素的最终目标：终点（五个坏接点在preview里消失，且修在机制层）、验收标准（原有pytest全绿+坏点写成测试案例+人耳A/B验收）、禁区（不准手改EDL盖症状、不准弄坏原来正常的功能）、停损（要动核心假设时先停）。结果模型不仅修好了五个坏接点，还用130多个已有案例做回归验证。这种“同事式协作”远比让它从零做一个网页更能体现真实的工程价值。Every团队也印证了这一点：他们把整个production bug backlog丢给Fable 5，离开几小时回来就看到全部清掉了；甚至用one-shot生成了可玩的3D游戏和2分钟动画短片。

安全红线与“Token刺客”：能造药也能当黑客，但钱包先扛不住

Fable 5的恐怖不止在编码——它在网络安全和生物科学上的能力让Anthropic自己都紧张。ExploitBench上它拿到78.0%，远高于Opus 4.8的40.0%和GPT-5.5的34.0%；BioMysteryBench硬核任务46.1%，药物设计加速约10倍。如此强大的能力迫使Anthropic部署了一套新的安全分类器：当用户请求涉及网络攻击、生物武器、化学合成或模型蒸馏时，Fable 5会自动回退到Opus 4.8处理，并告知用户模型已切换。同时，它的定价也堪称“Token刺客”：API每百万输入10美元、输出50美元，大约是Opus的两倍，而且因为每次任务经常吃掉50万到100万个token，实际费用高得惊人。目前Fable 5在Claude Pro/Max/Team计划里免费包含到6月22日，之后只能走API付费，单价按usage credits走。Dan Shipper将其比喻为“曲速引擎”——几小时能穿越银河系，但不适合在城里散步，除非公司报销。

从杀戮尖塔到药物设计：神级案例的另一种打开方式

Anthropic在《杀戮尖塔》游戏里测试了Fable 5的长期记忆能力：给定持久化文件后，它进入最终章节的频率是Opus 4.8的三倍。而在生命科学领域，内部分子生物学专家用Mythos 5（Fable 5的安全受控版本）做蛋白质设计，部分药物设计流程加速整整10倍，盲测中研究者偏好比例约80%。视觉能力同样变态：Fable 5能从截图重建网页应用、从科学图表里提取精确数字，Blueprint-Bench 2上38.6%的成绩远超Opus 4.8的14.5%。这些案例共同指向一个事实：Fable 5不是“更好的代码补全器”，而是一个能自主理解复杂目标、跨越多个领域、承担长期任务的新物种。只是，一旦你习惯了它的速度，就很难再回到从前——而且你的账户余额也会飞速下滑。

全网爆火的 Claude Fable 5 神级案例，可能是纯手搓

跑分断崖领先：从63分跳到91分，人类工程师被AI反超

实机测试：不是教它写代码，是把它当资深工程师开会

安全红线与“Token刺客”：能造药也能当黑客，但钱包先扛不住

从杀戮尖塔到药物设计：神级案例的另一种打开方式

链接失效反馈