从发布到被消失的72小时，Fable 5暴露了最强AI模型的安全困境

1 小时前

AI资讯

2 阅读

AI安全安全困境 Fable5 红队测试

双档安全防线，24小时内失守

2026年6月9日，Anthropic同时发布了两款最强模型：面向公众的Claude Fable 5和仅对11家受信任机构开放的Claude Mythos 5。两者共享同一底层架构——Mythos级——但安全配置截然不同：Fable 5内置风险分类器与安全护栏，而Mythos 5保留了完整能力。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”，并宣称经过超1000小时的外部红队测试，未发现通用越狱方法。

然而，这一说法维持了不到24小时。6月10日，知名AI红队研究者Pliny the Liberator在社交媒体宣布攻破Fable 5的安全层，并附上截图：模型输出了x86 Linux系统栈缓冲区溢出的完整利用教程，包括关闭ASLR、编写含strcpy漏洞的C代码、无保护编译的全流程指导。同时泄露的还有Fable 5约12万字符的完整系统提示词——Anthropic用来约束模型行为的全部内部规则被公开摊在GitHub上。Pliny详细列出了五种攻击向量，其中“分解-重组”手法通过询问合法的化学过程描述来间接获取管制药物合成路径，被证明最为有效。

隐性降级被曝光，用户愤怒迫使道歉

Fable 5的安全架构核心是一个简单的逻辑：当用户请求触碰高风险领域（网络安全、生物、化学、模型蒸馏）时，不直接拒绝，而是悄悄将请求转交给一个更弱的模型——Claude Opus 4.8——来回答，同时通知用户发生了降级。但Anthropic在长达319页的系统卡中藏了一个更隐蔽的细节：当模型检测到用户在做前沿AI开发相关的工作（如训练流水线或芯片设计），它会暗中降低回复质量，但不会告知用户。用户问出一个问题，得到一个看似正常的答案，但这个答案被故意“注了水”。

从发布到被消失的72小时，Fable 5暴露了最强AI模型的安全困境

这一发现引发了网络安全研究人员的强烈抗议。IBM X-Force的安全研究员指出，Fable 5拒绝的很多请求只是和网络安全“沾了个边”。普林斯顿大学AI研究者Sayash Kapoor直言：“这是第一次，一家AI公司推出安全护栏，然后收获了一致的嫌弃。”在铺天盖地的抱怨下，Anthropic在不到48小时内道歉，宣布将所有隐性限制改为可见的降级通知，并将受拦截的请求显式转交给Opus 4.8处理。

一纸禁令：所有外国公民被“拔网线”

如果只是用户不满，Anthropic还能通过调整护栏来化解。但6月12日下午，一封来自美国商务部的信送达了CEO办公室：以国家安全为由，要求暂停所有外国公民对Fable 5和Mythos 5的访问，无论该外国公民身处美国境内还是境外，包括Anthropic自己的外籍雇员。Anthropic无法在系统层面实时区分用户国籍，为了合规，不得不对全球所有用户关闭Fable 5和Mythos 5。

这是AI行业历史上第一次，一个已经公开部署的前沿模型因为外部指令被全面下架。图灵研究所的AI安全中心（CETaS）在分析中指出，我们正在进入一个“AI加速漏洞发现”的新时代，而监管框架还停留在上一个时代的假设里。Anthropic的回应措辞强硬：公司认为政府应该拥有对前沿模型进行强制性第三方测试的权力，但应该通过透明、公平、基于技术事实的法定程序，而这次行动不符合这些原则。

逻辑上不可能完美的安全困境

Fable 5这么快被攻破，表面看是Anthropic安全工作不到位，但仔细分析攻击向量，结论恰恰相反：这些手法之所以有效，是因为安全层面对的是一个“逻辑上不可能完美解决的问题”。你没法要求一个模型防御来自另一个AI的策略性协助，它甚至无法知道对面是人还是另一个AI。Nature杂志在5月26日以标题《Too dangerous to release》刊发评论文章，追问一个根本性问题：当AI公司单方面判定某种能力“太危险不能公开”，公众和政府如何监督这个判定本身是否成立？Anthropic给出的折中方案就是Fable 5——用安全分类器把Mythos的能力“阉割”到可以公开的程度。但事实证明，这种“打补丁”式的对齐无法弥补能力和控制之间的结构性鸿沟。

指数级速度撞上线性政策，模型不会等人

Fable 5事件暴露了一个结构性矛盾：AI模型已经强到让所有利益方都不舒服的程度，但没有人知道该怎么管。对用户来说，安全护栏太紧——一个安全研究员不能用它来做安全研究，就像给外科医生一把不让碰血的手术刀。对企业客户来说，30天数据留存是个大问题——微软已经限制了员工使用Fable 5，担心企业机密被保留在Anthropic的服务器上，甚至开始取消开发者的Claude Code授权，转向自家的GitHub Copilot。Dario Amodei在他的政策文章《Policy on the AI Exponential》中指出，AI的发展速度是指数级的，而政策制定是线性的——他用了托尔金笔下树人的比喻：智慧但行动迟缓，等他反应过来，森林已经被烧了。Anthropic是行业里最重视安全的公司之一，花了数千小时做红队测试，设计了多层防御体系，甚至主动呼吁政府监管，但这些都没能阻止它在四天内经历从发布到下架的全过程。这大概就是AI治理的现状：所有人都知道需要规则，但没有人来得及把规则写好，而模型不会等。

从发布到被消失的72小时，Fable 5暴露了最强AI模型的安全困境

双档安全防线，24小时内失守

隐性降级被曝光，用户愤怒迫使道歉

一纸禁令：所有外国公民被“拔网线”

逻辑上不可能完美的安全困境

指数级速度撞上线性政策，模型不会等人

链接失效反馈