因安全顾虑，Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题

1 个月前

AI资讯

79 阅读

AI安全 claude 5 Fable 模型护栏生物问题

最强模型却对生物学“哑火”：安全护栏直接降级到旧模型

Claude Fable 5是Anthropic迄今最强大的Mythos级模型，在软件工程、科研和视觉理解等领域全面碾压对手，但其安全设计却引发了新矛盾。根据官方说明，Fable 5面向公众开放时搭载了三类安全分类器，分别监测网络安全、生物/化学以及模型蒸馏攻击。一旦用户的提问被判定为“高风险领域”——例如任何与生物学或化学相关的内容——系统将自动把问题路由到上一代Claude Opus 4.8模型处理，并告知用户模型已切换。这意味着，即便用户询问高中级别的光合作用过程或DNA复制步骤，Fable 5本身也不会作答，而是交给能力较弱的Opus 4.8。

安全恐慌源于双胞胎模型“Mythos 5”的恐怖能力

Fable 5与Mythos 5共享同一底层模型，区别仅在于安全护栏的松紧。Mythos 5只提供给Project Glasswing合作方（包括亚马逊云、苹果、谷歌、微软等），且解除了网络安全护栏；未来还将面向生物医学研究者开放解除生物/化学护栏的版本。Anthropic内部测试显示，Mythos 5能将部分药物设计流程加速约10倍，这意味着模型已具备“完成真实科学任务的能力”。正因为如此强大的生物学潜能，一旦被恶意利用可能带来极大风险，所以公众版Fable 5不得不“一刀切”：宁可错杀一千，也不放过一个——即使是最基础的生物知识问答也被视为潜在危险。

因安全顾虑，Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题

“降级方案”并非直接拒绝，但用户体验大打折扣

与以往简单拒绝高风险请求不同，Fable 5采取了更温和的降级策略：当分类器触发时，模型会悄然换成Opus 4.8继续回答。Anthropic声称超过95%的对话完全不受影响，但这意味着所有纯生物学、化学方向的对话都将被划入受影响区间。用户如果想测试Fable 5在分子生物学、病毒结构或遗传算法上的真实表现，得到的只能是旧模型的输出。许多用户反映，连“解释什么是抗体”这种常规问题都会被降级处理，Fable 5几乎无法用于任何与生命科学相关的学习或工作场景。

外部测试无法破解，但基础问题误判率存疑

Anthropic为验证Fable 5的安全性投入了超过1000小时的漏洞悬赏测试，并联合外部机构尝试绕过模型限制，均未发现完全的“越狱”方法。然而，安全团队的工作重点在于防止恶意滥用，而非评估分类器是否过度敏感。有观察者指出，将“基础生物问题”也纳入高风险范畴，明显超出了合理范围。比如询问“细菌如何繁殖”这类教科书信息竟也被降级，说明安全分类器的阈值设置可能过于激进，误将正常科普请求当作潜在威胁处理。

成本与算力的双重压力：6月22日后免费窗口关闭

Fable 5的定价为每百万输入token 10美元、输出token 50美元，虽然低于之前的Mythos Preview，但仍远高于普通模型。而且直到6月22日前，Pro/Team等订阅用户可免费使用Fable 5；此后该模型将从订阅计划中移出，继续使用必须消耗“usage credits”。这种限时免费+高价续费的策略，加上安全降级带来的体验折扣，让许多原本期待Mythos级生物学能力的用户感到失望。Anthropic强调“算力限制”是免费窗口关闭的原因，但安全降级导致的低效使用——明明调用Fable 5却得到Opus 4.8的回复——进一步放大了浪费。

因安全顾虑，Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题

最强模型却对生物学“哑火”：安全护栏直接降级到旧模型

安全恐慌源于双胞胎模型“Mythos 5”的恐怖能力

“降级方案”并非直接拒绝，但用户体验大打折扣

外部测试无法破解，但基础问题误判率存疑

成本与算力的双重压力：6月22日后免费窗口关闭

链接失效反馈