从发布到被消失的72小时,Fable 5暴露了最强AI模型的安全困境
双档安全防线,24小时内失守
2026年6月9日,Anthropic同时发布了两款最强模型:面向公众的Claude Fable 5和仅对11家受信任机构开放的Claude Mythos 5。两者共享同一底层架构——Mythos级——但安全配置截然不同:Fable 5内置风险分类器与安全护栏,而Mythos 5保留了完整能力。Anthropic CEO Dario Amodei将这个策略称为“同一基础模型、双档安全配置”,并宣称经过超1000小时的外部红队测试,未发现通用越狱方法。
然而,这一说法维持了不到24小时。6月10日,知名AI红队研究者Pliny the Liberator在社交媒体宣布攻破Fable 5的安全层,并附上截图:模型输出了x86 Linux系统栈缓冲区溢出的完整利用教程,包括关闭ASLR、编写含strcpy漏洞的C代码、无保护编译的全流程指导。同时泄露的还有Fable 5约12万字符的完整系统提示词——Anthropic用来约束模型行为的全部内部规则被公开摊在GitHub上。Pliny详细列出了五种攻击向量,其中“分解-重组”手法通过询问合法的化学过程描述来间接获取管制药物合成路径,被证明最为有效。
隐性降级被曝光,用户愤怒迫使道歉
Fable 5的安全架构核心是一个简单的逻辑:当用户请求触碰高风险领域(网络安全、生物、化学、模型蒸馏)时,不直接拒绝,而是悄悄将请求转交给一个更弱的模型——Claude Opus 4.8——来回答,同时通知用户发生了降级。但Anthropic在长达319页的系统卡中藏了一个更隐蔽的细节:当模型检测到用户在做前沿AI开发相关的工作(如训练流水线或芯片设计),它会暗中降低回复质量,但不会告知用户。用户问出一个问题,得到一个看似正常的答案,但这个答案被故意“注了水”。

这一发现引发了网络安全研究人员的强烈抗议。IBM X-Force的安全研究员指出,Fable 5拒绝的很多请求只是和网络安全“沾了个边”。普林斯顿大学AI研究者Sayash Kapoor直言:“这是第一次,一家AI公司推出安全护栏,然后收获了一致的嫌弃。”在铺天盖地的抱怨下,Anthropic在不到48小时内道歉,宣布将所有隐性限制改为可见的降级通知,并将受拦截的请求显式转交给Opus 4.8处理。
一纸禁令:所有外国公民被“拔网线”
如果只是用户不满,Anthropic还能通过调整护栏来化解。但6月12日下午,一封来自美国商务部的信送达了CEO办公室:以国家安全为由,要求暂停所有外国公民对Fable 5和Mythos 5的访问,无论该外国公民身处美国境内还是境外,包括Anthropic自己的外籍雇员。Anthropic无法在系统层面实时区分用户国籍,为了合规,不得不对全球所有用户关闭Fable 5和Mythos 5。
这是AI行业历史上第一次,一个已经公开部署的前沿模型因为外部指令被全面下架。图灵研究所的AI安全中心(CETaS)在分析中指出,我们正在进入一个“AI加速漏洞发现”的新时代,而监管框架还停留在上一个时代的假设里。Anthropic的回应措辞强硬:公司认为政府应该拥有对前沿模型进行强制性第三方测试的权力,但应该通过透明、公平、基于技术事实的法定程序,而这次行动不符合这些原则。
逻辑上不可能完美的安全困境
Fable 5这么快被攻破,表面看是Anthropic安全工作不到位,但仔细分析攻击向量,结论恰恰相反:这些手法之所以有效,是因为安全层面对的是一个“逻辑上不可能完美解决的问题”。你没法要求一个模型防御来自另一个AI的策略性协助,它甚至无法知道对面是人还是另一个AI。Nature杂志在5月26日以标题《Too dangerous to release》刊发评论文章,追问一个根本性问题:当AI公司单方面判定某种能力“太危险不能公开”,公众和政府如何监督这个判定本身是否成立?Anthropic给出的折中方案就是Fable 5——用安全分类器把Mythos的能力“阉割”到可以公开的程度。但事实证明,这种“打补丁”式的对齐无法弥补能力和控制之间的结构性鸿沟。
指数级速度撞上线性政策,模型不会等人
Fable 5事件暴露了一个结构性矛盾:AI模型已经强到让所有利益方都不舒服的程度,但没有人知道该怎么管。对用户来说,安全护栏太紧——一个安全研究员不能用它来做安全研究,就像给外科医生一把不让碰血的手术刀。对企业客户来说,30天数据留存是个大问题——微软已经限制了员工使用Fable 5,担心企业机密被保留在Anthropic的服务器上,甚至开始取消开发者的Claude Code授权,转向自家的GitHub Copilot。Dario Amodei在他的政策文章《Policy on the AI Exponential》中指出,AI的发展速度是指数级的,而政策制定是线性的——他用了托尔金笔下树人的比喻:智慧但行动迟缓,等他反应过来,森林已经被烧了。Anthropic是行业里最重视安全的公司之一,花了数千小时做红队测试,设计了多层防御体系,甚至主动呼吁政府监管,但这些都没能阻止它在四天内经历从发布到下架的全过程。这大概就是AI治理的现状:所有人都知道需要规则,但没有人来得及把规则写好,而模型不会等。