因安全顾虑,Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题
最强模型却对生物学“哑火”:安全护栏直接降级到旧模型
Claude Fable 5是Anthropic迄今最强大的Mythos级模型,在软件工程、科研和视觉理解等领域全面碾压对手,但其安全设计却引发了新矛盾。根据官方说明,Fable 5面向公众开放时搭载了三类安全分类器,分别监测网络安全、生物/化学以及模型蒸馏攻击。一旦用户的提问被判定为“高风险领域”——例如任何与生物学或化学相关的内容——系统将自动把问题路由到上一代Claude Opus 4.8模型处理,并告知用户模型已切换。这意味着,即便用户询问高中级别的光合作用过程或DNA复制步骤,Fable 5本身也不会作答,而是交给能力较弱的Opus 4.8。
安全恐慌源于双胞胎模型“Mythos 5”的恐怖能力
Fable 5与Mythos 5共享同一底层模型,区别仅在于安全护栏的松紧。Mythos 5只提供给Project Glasswing合作方(包括亚马逊云、苹果、谷歌、微软等),且解除了网络安全护栏;未来还将面向生物医学研究者开放解除生物/化学护栏的版本。Anthropic内部测试显示,Mythos 5能将部分药物设计流程加速约10倍,这意味着模型已具备“完成真实科学任务的能力”。正因为如此强大的生物学潜能,一旦被恶意利用可能带来极大风险,所以公众版Fable 5不得不“一刀切”:宁可错杀一千,也不放过一个——即使是最基础的生物知识问答也被视为潜在危险。

“降级方案”并非直接拒绝,但用户体验大打折扣
与以往简单拒绝高风险请求不同,Fable 5采取了更温和的降级策略:当分类器触发时,模型会悄然换成Opus 4.8继续回答。Anthropic声称超过95%的对话完全不受影响,但这意味着所有纯生物学、化学方向的对话都将被划入受影响区间。用户如果想测试Fable 5在分子生物学、病毒结构或遗传算法上的真实表现,得到的只能是旧模型的输出。许多用户反映,连“解释什么是抗体”这种常规问题都会被降级处理,Fable 5几乎无法用于任何与生命科学相关的学习或工作场景。
外部测试无法破解,但基础问题误判率存疑
Anthropic为验证Fable 5的安全性投入了超过1000小时的漏洞悬赏测试,并联合外部机构尝试绕过模型限制,均未发现完全的“越狱”方法。然而,安全团队的工作重点在于防止恶意滥用,而非评估分类器是否过度敏感。有观察者指出,将“基础生物问题”也纳入高风险范畴,明显超出了合理范围。比如询问“细菌如何繁殖”这类教科书信息竟也被降级,说明安全分类器的阈值设置可能过于激进,误将正常科普请求当作潜在威胁处理。
成本与算力的双重压力:6月22日后免费窗口关闭
Fable 5的定价为每百万输入token 10美元、输出token 50美元,虽然低于之前的Mythos Preview,但仍远高于普通模型。而且直到6月22日前,Pro/Team等订阅用户可免费使用Fable 5;此后该模型将从订阅计划中移出,继续使用必须消耗“usage credits”。这种限时免费+高价续费的策略,加上安全降级带来的体验折扣,让许多原本期待Mythos级生物学能力的用户感到失望。Anthropic强调“算力限制”是免费窗口关闭的原因,但安全降级导致的低效使用——明明调用Fable 5却得到Opus 4.8的回复——进一步放大了浪费。