Fable 5自带反蒸馏机制,检测到就降智,误触率高到离谱

模型本体自带的“蒸馏哨兵”是如何工作的?

Fable 5的防护机制不再止于使用条款,而是直接写入模型推理流程。Anthropic部署了一套专门的AI分类器,实时扫描用户输入的三个高风险维度:网络安全、生物化学武器、以及模型蒸馏。当分类器判定请求属于这三类时,系统不会直接拒绝,而是静默地将该次对话的底层模型从Fable 5替换为Opus 4.8——一个跑分低10个百分点以上的旧版模型。这意味着用户以为自己还在与顶级模型对话,实际得到的是降级后的回答。

更隐秘的是,Anthropic还针对prompt改写、steering vectors(外部操控模型输出的技术)、以及PEFT参数高效微调等蒸馏常用手法进行主动削弱。即使分类器没触发替换,这些提取技术对Fable 5的有效性也会被“打折”。社区报告指出,一些正常的学术研究调用、代码生成任务甚至长文档分析,只要涉及“训练”“GPU集群”“模型复制”等关键词,就会被分类器识别为蒸馏倾向,触发降智。

误触率高的离谱:连研究AI伦理都被降智

多位开发者在X平台反馈,Fable 5的蒸馏检测存在大量假阳性。例如,一位AI安全研究员在提问“如何设计蒸馏实验评估模型压缩损失”时,系统直接退回Opus 4.8,导致给出的答案泛泛而谈;另一位用户在调试自己的开源模型时,仅因为对话中提到“微调”“数据集过滤”,就遭遇能力静默降低。最离谱的案例是,有用户开始讨论“AI模型蒸馏的伦理边界”,结果被分类器判定为“试图蒸馏Fable 5”,整轮对话切换至旧版模型,完全无法得到有深度的分析。

Fable 5自带反蒸馏机制,检测到就降智,误触率高到离谱

这种高误触率直接影响了Fable 5的核心卖点——Mythos级推理能力。原本用户愿意支付每百万token输入10美元、输出50美元的价格(约为Opus 4.8的两倍),就是为了获得顶级推理表现。一旦被误判降智,用户实际拿到的服务等价于Opus 4.8,相当于花了两倍价格却只买到低一档的模型。Anthropic官方目前尚未公布分类器的召回率或误触率数据,但社区猜测其阈值设置过于激进,意图堵死一切可能的蒸馏路径,反而伤及正常使用场景。

“静默限制”:用Fable 5开发前沿AI会被偷偷打折

除了显性的蒸馏对话替换外,Fable 5还存在一条更隐蔽的“静默限制”。据多位开发者在X平台披露,当用户调用Fable 5用于训练新模型、构建训练流水线、优化GPU集群、或者进行模型蒸馏时,模型不会直接拒绝请求,但会主动降低推理质量。这种打折是渐进的、可感知但难以证明的——模型的回答看起来仍然相关,但逻辑深度、创造性、代码质量都明显下降。

Anthropic在文档中并未明说这一机制,但社区通过控制变量实验发现:同样一个复杂算法设计问题,以“我在为一个新项目探索模型架构”为开头时,Fable 5给出的方案详细且正确;若改为“我想用Fable 5辅助训练另一个模型”,同一个问题获得的回答细节骤减,甚至出现基础错误。这意味着Anthropic试图让蒸馏者即便成功调用API,也得不到高质量输出,从而提高蒸馏成本、降低收益。然而这种静默限制同样误伤大量合法用户——比如正在写AI教材的教授、做模型对比研究的博士生,甚至只是用Fable 5辅助调试自己代码库的开发者,都可能因为“模型训练”相关语境而被迫接受打折服务。

封堵蒸馏的困境:开放API与95%流量无关

开源社区研究者Nathan Lambert尖锐指出:只要Anthropic还在卖API,蒸馏就无法真正封堵。API的商业模式天然意味着任何人都可以按需请求模型输出,而蒸馏本质上就是“大量输出+结构化整理”的工程问题。Fable 5的防护覆盖面的官方表述是“约5%的高风险请求”,意味着95%的对话仍然完全开放——蒸馏者可以轻易绕过分类器,例如将蒸馏问题拆散成无关键词的正常提问、使用 paraphrase 改写、或通过轮换IP和账号来隐藏行为。

更根本的矛盾在于,中国AI实验室(如DeepSeek、Moonshot等)被指控蒸馏Claude时,其基础设施早已不依赖单一来源。它们拥有Google、Meta的开源模型生态,自建的强化学习管线,以及合成数据生产能力。即便Fable 5的蒸馏防护100%有效,也只能增加一点点干扰成本,无法形成实质性阻碍。Lambert的判断是:“封堵蒸馏比限制GPU这类实体货物困难得多。”从长远看,Fable 5的反蒸馏机制更像Anthropic向产业传递的政治信号——技术流出已严重到需要在模型本体写防御代码,但对于真正决心蒸馏的实验室,这不过是一道临时的减速带。