刚刚,地表最强Claude 5被攻破

黑客团队宣布攻克Fable 5安全封锁

北京时间6月12日,知名黑客「Pliny the Liberator」公开宣称,其领导的团队已彻底攻破Anthropic最新发布的Claude Fable 5的安全分类器。据该黑客透露,原本被完全封锁的漏洞利用代码,以及各种违禁化学品的制作方法,现已被成功提取。这意味着Anthropic在Fable 5上设置的“绝对禁区”被直接撕开,模型在网络安全和生物化学领域的潜在危险能力可能被不受控地使用。

Fable 5跑分碾压:编程、终端、视觉全面断崖式领先

Fable 5本身就是此次被攻破的主角,其性能在发布时就被视为“地表最强”。在多项基准测试中,它呈现出碾压式优势:

刚刚,地表最强Claude 5被攻破

  • SWE-Bench Pro:80.3%,远高于GPT-5.5的58.6%和Opus 4.8的69.2%。
  • Terminal-Bench 2.1:88.0%,压过OpenAI Codex CLI的83.4%。
  • CursorBench:72.9%,新的SOTA,比此前最好成绩高8个点。
  • Humanity's Last Exam:53%,领先第二名7个点。

在视觉和长任务执行上同样惊人:Blueprint-Bench 2达到38.6%,高于GPT-5.5的36.2%;GDP.pdf等知识工作视觉任务拿到29.8%。Stripe用它在一天内迁移完5000万行Ruby代码,原计划需团队干俩月。Ethan Mollick反馈称可直接丢15页设计文档,模型能自主工作9小时。

Anthropic的“静默降级”机制引发信任危机

在发布Fable 5的同时,Anthropic引入了一套新的安全策略。据Anthropic官方解释,当模型检测到用户在进行“前沿LLM开发”——如编写预训练pipeline、设计AI加速器——时会悄悄降低回答质量,且不告知用户。手段包括prompt修改、steering vectors、PEFT等。官方声称这仅影响0.03%的流量,但社区质疑:边界由谁定义?写个推理优化是否会被标记?AI研究者表示,这种行为与“你买的电脑暗地里偷你算力”无异,严重损害开发者信任。

从封存到泄露:超级模型双重安全困境

事实上,在黑客攻破之前,Anthropic已经展现了对超级模型安全的高度紧张。据消息,Anthropic不仅亲手限制了Mythos 5(Fable 5的封闭版本)的公开发布,还联手苹果与谷歌等竞争对手,试图将这一超级武器彻底隐藏。然而,安全防线在发布仅两天后即告破。Fable 5在ExploitBench Cap%上达到78.0%(Opus 4.8仅40.0%),BioMysteryBench hard达46.1%,药物设计加速约10倍——这些能力在泄露后可能被恶意利用,使安全控制形同虚设。